耗资仅30万?在4台 512GB Mac Studio上搭建个人AI超算,万亿参数Kimi-K2.5本地部署指南
#耗资仅30万?在4台 512GB Mac Studio上搭建个人AI超算,万亿参数Kimi-K2.5本地部署指南
在这个大模型狂飙的时代,我们都有一个梦想:在本地运行一个媲美GPT-5级别的万亿参数模型。但现实是残酷的,万亿参数的模型即使是4-bit量化,也需要海量的显存。H100、B200太贵,买不起怎么办?
今天JamePeng带大家用4台满配的 M3 Ultra Mac Studio,通过EXO+MLX和Thunderbolt 5,硬生生搓出一台拥有2TB统一内存的本地AI超级计算机!目标只有一个:在本地跑通 Kimi-K2.5 万亿参数大模型。
为什么要这么折腾?
不仅是为了酷,更是为了数据隐私和极致的本地控制权。
核心武器是EXO(GitHub: exo-explore/exo),它支持RDMA(远程直接内存访问),能把4台Mac的统一内存融合成一个巨大的显存池。
硬件清单:4台 Mac Studio (M3 Ultra, 512GB 内存版),总显存约2TB,连接使用Thunderbolt 5 (120Gbps带宽),系统需要macOS Tahoe 26.2或更新版本。
步骤1: 启用RDMA支持
在每台Mac上操作:
- 关闭Mac,进入恢复模式(按住电源按钮,选择"Options" > "Continue")
- 打开Terminal,运行:bputil -a rdma
- 重启Mac
- 验证:systemprofiler SPThunderboltDataType 检查RDMA启用
步骤2: 安装EXO
macOS App安装:从GitHub下载EXO-version.dmg,安装运行。打开Dashboard添加其他Mac IP。
源代码安装:
- 安装Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
步骤三:物理连接与拓扑
不要用 Wi-Fi 组网!哪怕是 Wi-Fi 7 也不行。万亿模型的推理对带宽极其敏感。请使用 Thunderbolt 5 线缆,将一台 Mac 作为主节点(Master),其他三台作为工作节点(Worker)。推荐星型拓扑或链式连接。
在 EXO Dashboard 里,你应该能看到 4 台设备全部在线,总内存池显示为2048 GB。
步骤四:下载和运行 MLX 社区版 Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. 启动推理引擎:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx命令解析:
- --model:指向模型目录
- --quant 4:使用4-bit量化减少内存使用
- --shards auto:EXO自动智能切分模型
- --engine mlx:调用 M3 Ultra 的 76核 GPU 和 Neural Engine 进行推理
最终效果与实测
当终端显示Ready时,你就拥有了一台属于自己的 AI 超算。
预填充(Prefill)阶段:4台 Mac 的风扇开始轻微加速(得益于 M3 Ultra的能效比,并不会起飞)。
生成(Generation)阶段:Token 一个接一个蹦出来。
速度:虽然比不上 H100 集群,但得益于 Thunderbolt 5 的 RDMA 加持,Token 生成速度可以达到17-28 tokens/s。这对于一个万亿参数模型来说,完全是可交互的!
总结
这套方案绝对不便宜,但它证明了在Apple Silicon + 开源社区的努力下,去中心化 AI 的未来正在到来。我们不需要把数据传给云端巨头,利用手边的设备,就能构建强大的私有推理集群.

