耗资仅30万?在4台 512GB Mac Studio上搭建个人AI超算,万亿参数Kimi-K2.5本地部署指南

2/26/2026
1 min read

#耗资仅30万?在4台 512GB Mac Studio上搭建个人AI超算,万亿参数Kimi-K2.5本地部署指南

在这个大模型狂飙的时代,我们都有一个梦想:在本地运行一个媲美GPT-5级别的万亿参数模型。但现实是残酷的,万亿参数的模型即使是4-bit量化,也需要海量的显存。H100、B200太贵,买不起怎么办?

今天JamePeng带大家用4台满配的 M3 Ultra Mac Studio,通过EXO+MLX和Thunderbolt 5,硬生生搓出一台拥有2TB统一内存的本地AI超级计算机!目标只有一个:在本地跑通 Kimi-K2.5 万亿参数大模型。

为什么要这么折腾?

不仅是为了酷,更是为了数据隐私和极致的本地控制权。

核心武器是EXO(GitHub: exo-explore/exo),它支持RDMA(远程直接内存访问),能把4台Mac的统一内存融合成一个巨大的显存池。

硬件清单:4台 Mac Studio (M3 Ultra, 512GB 内存版),总显存约2TB,连接使用Thunderbolt 5 (120Gbps带宽),系统需要macOS Tahoe 26.2或更新版本。

步骤1: 启用RDMA支持

在每台Mac上操作:

  • 关闭Mac,进入恢复模式(按住电源按钮,选择"Options" > "Continue")
  • 打开Terminal,运行:bputil -a rdma
  • 重启Mac
  • 验证:systemprofiler SPThunderboltDataType 检查RDMA启用
Thunderbolt 5提供120Gbps带宽,完美支持数据传输。

步骤2: 安装EXO

macOS App安装:从GitHub下载EXO-version.dmg,安装运行。打开Dashboard添加其他Mac IP。

源代码安装:

  • 安装Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

步骤三:物理连接与拓扑

不要用 Wi-Fi 组网!哪怕是 Wi-Fi 7 也不行。万亿模型的推理对带宽极其敏感。请使用 Thunderbolt 5 线缆,将一台 Mac 作为主节点(Master),其他三台作为工作节点(Worker)。推荐星型拓扑或链式连接。

在 EXO Dashboard 里,你应该能看到 4 台设备全部在线,总内存池显示为2048 GB。

步骤四:下载和运行 MLX 社区版 Kimi-K2.5

  • 下载模型:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. 启动推理引擎:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx命令解析:

    • --model:指向模型目录
    • --quant 4:使用4-bit量化减少内存使用
    • --shards auto:EXO自动智能切分模型
    • --engine mlx:调用 M3 Ultra 的 76核 GPU 和 Neural Engine 进行推理

    最终效果与实测

    当终端显示Ready时,你就拥有了一台属于自己的 AI 超算。

    预填充(Prefill)阶段:4台 Mac 的风扇开始轻微加速(得益于 M3 Ultra的能效比,并不会起飞)。

    生成(Generation)阶段:Token 一个接一个蹦出来。

    速度:虽然比不上 H100 集群,但得益于 Thunderbolt 5 的 RDMA 加持,Token 生成速度可以达到17-28 tokens/s。这对于一个万亿参数模型来说,完全是可交互的!

    总结

    这套方案绝对不便宜,但它证明了在Apple Silicon + 开源社区的努力下,去中心化 AI 的未来正在到来。我们不需要把数据传给云端巨头,利用手边的设备,就能构建强大的私有推理集群.

    Published in Technology

    You Might Also Like

    📝
    Technology

    Claude Code Buddy മാറ്റം മാർഗ്ഗനിർദ്ദേശം: എങ്ങനെ മിനുക്കിയ പാരമ്പര്യതലത്തെ പെട്ടി നേടാം

    Claude Code Buddy മാറ്റം മാർഗ്ഗനിർദ്ദേശം: എങ്ങനെ മിനുക്കിയ പാരമ്പര്യതലത്തെ പെട്ടി നേടാം 2026年4月1日,Anthropic 在 Claude Cod...

    Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയിTechnology

    Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയി

    Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയി ഞാൻ എപ്പോഴും Obsidian-ന്റെ ആധാരഭ...

    OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റായ വഴിയിലേക്കു പോയതായി ആന്തരികമായി അംഗീകരിച്ചുTechnology

    OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റായ വഴിയിലേക്കു പോയതായി ആന്തരികമായി അംഗീകരിച്ചു

    OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റാ...

    2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരുംHealth

    2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരും

    2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരും പുതിയ ...

    അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാംHealth

    അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാം

    അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാം മാർച്ച് മാസത്തിന്റെ മധ്യത്തിൽ, നിങ്ങളുടെ കുറവാക്കൽ പദ്ധതിയേന്താണ്...

    📝
    Technology

    AI Browser 24 മണിക്കൂർ സ്ഥിരമായ പ്രവർത്തന മാർഗ്ഗനിർദ്ദേശം

    AI Browser 24 മണിക്കൂർ സ്ഥിരമായ പ്രവർത്തന മാർഗ്ഗനിർദ്ദേശം ഈ ട്യൂട്ടോറിയൽ ഒരു സ്ഥിരമായ, ദീർഘകാല പ്രവർത്തനമുള്ള AI ബ്രൗസർ ...