30万円で実現？4台の512GB Mac Studioで個人AIスーパーコンピュータを構築する、万億パラメータKimi-K2.5のローカルデプロイガイド

この大規模モデルの急成長の時代に、私たちは皆、夢を抱いています：ローカルでGPT-5レベルの万億パラメータモデルを実行すること。しかし現実は厳しく、万億パラメータのモデルは4ビット量子化であっても、大量のビデオメモリを必要とします。H100やB200は高価で、手が出ません。どうすればいいのでしょうか？

今日はJamePengが、4台のフルスペックM3 Ultra Mac Studioを使って、EXO+MLXとThunderbolt 5を通じて、2TBの統一メモリを持つローカルAIスーパーコンピュータを作り出す方法を紹介します！目標はただ一つ：ローカルでKimi-K2.5の万億パラメータ大モデルを動かすことです。

なぜこんなに苦労するのか？

クールであるだけでなく、データプライバシーと極限のローカルコントロールを求めているからです。

核心的な武器はEXO（GitHub: exo-explore/exo）で、これはRDMA（リモートダイレクトメモリアクセス）をサポートし、4台のMacの統一メモリを一つの巨大なビデオメモリプールに融合させることができます。

ハードウェアリスト：4台のMac Studio（M3 Ultra、512GBメモリ版）、総ビデオメモリ約2TB、接続にはThunderbolt 5（120Gbps帯域幅）を使用し、システムはmacOS Tahoe 26.2またはそれ以降のバージョンが必要です。

ステップ1: RDMAサポートを有効にする

各Macで操作：

Macをシャットダウンし、リカバリモードに入る（電源ボタンを押し続けて、「Options」を選択 > 「Continue」を選択）
Terminalを開き、次のコマンドを実行：bputil -a rdma
Macを再起動
確認：systemprofiler SPThunderboltDataTypeでRDMAが有効になっているか確認

Thunderbolt 5は120Gbpsの帯域幅を提供し、データ転送を完璧にサポートします。

ステップ2: EXOをインストール

macOSアプリのインストール：GitHubからEXO-version.dmgをダウンロードし、インストールして実行します。Dashboardを開いて他のMacのIPを追加します。

ソースコードのインストール：

Homebrewをインストール

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

ステップ3：物理接続とトポロジー

Wi-Fiでネットワークを構成しないでください！Wi-Fi 7でさえもダメです。万億モデルの推論は帯域幅に非常に敏感です。Thunderbolt 5ケーブルを使用し、一台のMacをマスターノード（Master）として、他の三台をワーカーノード（Worker）として接続します。スター型トポロジーまたはチェーン接続を推奨します。

EXO Dashboardでは、4台のデバイスがすべてオンラインで、総メモリプールが2048 GBとして表示されるはずです。

ステップ4：MLXコミュニティ版Kimi-K2.5をダウンロードして実行

モデルをダウンロード：

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5

推論エンジンを起動：

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx コマンドの解析：

--model：モデルディレクトリを指す
--quant 4：4ビット量子化を使用してメモリ使用量を削減
--shards auto：EXOが自動的にモデルを賢く分割
--engine mlx：M3 Ultraの76コアGPUとNeural Engineを使用して推論を行う

最終的な効果と実測

ターミナルに「Ready」と表示されたら、あなたは自分のAIスーパーコンピュータを手に入れたことになります。

プレフィル（Prefill）段階：4台のMacのファンがわずかに加速し始めます（M3 Ultraのエネルギー効率のおかげで、飛び上がることはありません）。

生成（Generation）段階：トークンが次々と出てきます。

速度：H100クラスターには及びませんが、Thunderbolt 5のRDMAの恩恵を受けて、トークン生成速度は17-28 tokens/sに達することができます。これは万億パラメータモデルにとって、完全にインタラクティブです！

まとめ

このセットアップは決して安くはありませんが、Apple Siliconとオープンソースコミュニティの努力によって、分散型AIの未来が到来していることを証明しています。私たちはデータをクラウドの巨人に送る必要はなく、手元のデバイスを利用して強力なプライベート推論クラスターを構築することができます。

30万円で実現？4台の512GB Mac Studioで個人AIスーパーコンピュータを構築する、万億パラメータKimi-K2.5のローカルデプロイガイド

30万円で実現？4台の512GB Mac Studioで個人AIスーパーコンピュータを構築する、万億パラメータKimi-K2.5のローカルデプロイガイド

なぜこんなに苦労するのか？

ステップ1: RDMAサポートを有効にする

ステップ2: EXOをインストール

ステップ3：物理接続とトポロジー

ステップ4：MLXコミュニティ版Kimi-K2.5をダウンロードして実行

最終的な効果と実測

まとめ

You Might Also Like

Claude Code Buddy 修正ガイド：どのようにしてシャイニングレジェンド級ペットを手に入れるか

ObsidianはDefuddleを発表し、Obsidian Web Clipperを新たな高みへと引き上げた

OpenAIが突然発表した「三合一」：ブラウザ+プログラミング+ChatGPTの統合、内部で過去1年の誤りを認める

2026年、自分を「自律」に縛らない！この8つの小さなことを実践すれば、健康は自然にやってくる

努力しても痩せられないママたち、絶対にここでつまずいている

AIブラウザ 24時間安定運用ガイド