30万円で実現?4台の512GB Mac Studioで個人AIスーパーコンピュータを構築する、万億パラメータKimi-K2.5のローカルデプロイガイド
30万円で実現?4台の512GB Mac Studioで個人AIスーパーコンピュータを構築する、万億パラメータKimi-K2.5のローカルデプロイガイド
この大規模モデルの急成長の時代に、私たちは皆、夢を抱いています:ローカルでGPT-5レベルの万億パラメータモデルを実行すること。しかし現実は厳しく、万億パラメータのモデルは4ビット量子化であっても、大量のビデオメモリを必要とします。H100やB200は高価で、手が出ません。どうすればいいのでしょうか?
今日はJamePengが、4台のフルスペックM3 Ultra Mac Studioを使って、EXO+MLXとThunderbolt 5を通じて、2TBの統一メモリを持つローカルAIスーパーコンピュータを作り出す方法を紹介します!目標はただ一つ:ローカルでKimi-K2.5の万億パラメータ大モデルを動かすことです。
なぜこんなに苦労するのか?
クールであるだけでなく、データプライバシーと極限のローカルコントロールを求めているからです。
核心的な武器はEXO(GitHub: exo-explore/exo)で、これはRDMA(リモートダイレクトメモリアクセス)をサポートし、4台のMacの統一メモリを一つの巨大なビデオメモリプールに融合させることができます。
ハードウェアリスト:4台のMac Studio(M3 Ultra、512GBメモリ版)、総ビデオメモリ約2TB、接続にはThunderbolt 5(120Gbps帯域幅)を使用し、システムはmacOS Tahoe 26.2またはそれ以降のバージョンが必要です。
ステップ1: RDMAサポートを有効にする
各Macで操作:
- Macをシャットダウンし、リカバリモードに入る(電源ボタンを押し続けて、「Options」を選択 > 「Continue」を選択)
- Terminalを開き、次のコマンドを実行:bputil -a rdma
- Macを再起動
- 確認:systemprofiler SPThunderboltDataTypeでRDMAが有効になっているか確認
ステップ2: EXOをインストール
macOSアプリのインストール:GitHubからEXO-version.dmgをダウンロードし、インストールして実行します。Dashboardを開いて他のMacのIPを追加します。
ソースコードのインストール:
- Homebrewをインストール
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
ステップ3:物理接続とトポロジー
Wi-Fiでネットワークを構成しないでください!Wi-Fi 7でさえもダメです。万億モデルの推論は帯域幅に非常に敏感です。Thunderbolt 5ケーブルを使用し、一台のMacをマスターノード(Master)として、他の三台をワーカーノード(Worker)として接続します。スター型トポロジーまたはチェーン接続を推奨します。
EXO Dashboardでは、4台のデバイスがすべてオンラインで、総メモリプールが2048 GBとして表示されるはずです。
ステップ4:MLXコミュニティ版Kimi-K2.5をダウンロードして実行
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx コマンドの解析:
- --model:モデルディレクトリを指す
- --quant 4:4ビット量子化を使用してメモリ使用量を削減
- --shards auto:EXOが自動的にモデルを賢く分割
- --engine mlx:M3 Ultraの76コアGPUとNeural Engineを使用して推論を行う
最終的な効果と実測
ターミナルに「Ready」と表示されたら、あなたは自分のAIスーパーコンピュータを手に入れたことになります。
プレフィル(Prefill)段階:4台のMacのファンがわずかに加速し始めます(M3 Ultraのエネルギー効率のおかげで、飛び上がることはありません)。
生成(Generation)段階:トークンが次々と出てきます。
速度:H100クラスターには及びませんが、Thunderbolt 5のRDMAの恩恵を受けて、トークン生成速度は17-28 tokens/sに達することができます。これは万億パラメータモデルにとって、完全にインタラクティブです!
まとめ
このセットアップは決して安くはありませんが、Apple Siliconとオープンソースコミュニティの努力によって、分散型AIの未来が到来していることを証明しています。私たちはデータをクラウドの巨人に送る必要はなく、手元のデバイスを利用して強力なプライベート推論クラスターを構築することができます。

