30万円で実現?4台の512GB Mac Studioで個人AIスーパーコンピュータを構築する、万億パラメータKimi-K2.5のローカルデプロイガイド

2/26/2026
1 min read

30万円で実現?4台の512GB Mac Studioで個人AIスーパーコンピュータを構築する、万億パラメータKimi-K2.5のローカルデプロイガイド

この大規模モデルの急成長の時代に、私たちは皆、夢を抱いています:ローカルでGPT-5レベルの万億パラメータモデルを実行すること。しかし現実は厳しく、万億パラメータのモデルは4ビット量子化であっても、大量のビデオメモリを必要とします。H100やB200は高価で、手が出ません。どうすればいいのでしょうか?

今日はJamePengが、4台のフルスペックM3 Ultra Mac Studioを使って、EXO+MLXとThunderbolt 5を通じて、2TBの統一メモリを持つローカルAIスーパーコンピュータを作り出す方法を紹介します!目標はただ一つ:ローカルでKimi-K2.5の万億パラメータ大モデルを動かすことです。

なぜこんなに苦労するのか?

クールであるだけでなく、データプライバシーと極限のローカルコントロールを求めているからです。

核心的な武器はEXO(GitHub: exo-explore/exo)で、これはRDMA(リモートダイレクトメモリアクセス)をサポートし、4台のMacの統一メモリを一つの巨大なビデオメモリプールに融合させることができます。

ハードウェアリスト:4台のMac Studio(M3 Ultra、512GBメモリ版)、総ビデオメモリ約2TB、接続にはThunderbolt 5(120Gbps帯域幅)を使用し、システムはmacOS Tahoe 26.2またはそれ以降のバージョンが必要です。

ステップ1: RDMAサポートを有効にする

各Macで操作:

  • Macをシャットダウンし、リカバリモードに入る(電源ボタンを押し続けて、「Options」を選択 > 「Continue」を選択)
  • Terminalを開き、次のコマンドを実行:bputil -a rdma
  • Macを再起動
  • 確認:systemprofiler SPThunderboltDataTypeでRDMAが有効になっているか確認
Thunderbolt 5は120Gbpsの帯域幅を提供し、データ転送を完璧にサポートします。

ステップ2: EXOをインストール

macOSアプリのインストール:GitHubからEXO-version.dmgをダウンロードし、インストールして実行します。Dashboardを開いて他のMacのIPを追加します。

ソースコードのインストール:

  • Homebrewをインストール
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

ステップ3:物理接続とトポロジー

Wi-Fiでネットワークを構成しないでください!Wi-Fi 7でさえもダメです。万億モデルの推論は帯域幅に非常に敏感です。Thunderbolt 5ケーブルを使用し、一台のMacをマスターノード(Master)として、他の三台をワーカーノード(Worker)として接続します。スター型トポロジーまたはチェーン接続を推奨します。

EXO Dashboardでは、4台のデバイスがすべてオンラインで、総メモリプールが2048 GBとして表示されるはずです。

ステップ4:MLXコミュニティ版Kimi-K2.5をダウンロードして実行

  • モデルをダウンロード:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5

  • 推論エンジンを起動:
  • exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx コマンドの解析:

    • --model:モデルディレクトリを指す
    • --quant 4:4ビット量子化を使用してメモリ使用量を削減
    • --shards auto:EXOが自動的にモデルを賢く分割
    • --engine mlx:M3 Ultraの76コアGPUとNeural Engineを使用して推論を行う

    最終的な効果と実測

    ターミナルに「Ready」と表示されたら、あなたは自分のAIスーパーコンピュータを手に入れたことになります。

    プレフィル(Prefill)段階:4台のMacのファンがわずかに加速し始めます(M3 Ultraのエネルギー効率のおかげで、飛び上がることはありません)。

    生成(Generation)段階:トークンが次々と出てきます。

    速度:H100クラスターには及びませんが、Thunderbolt 5のRDMAの恩恵を受けて、トークン生成速度は17-28 tokens/sに達することができます。これは万億パラメータモデルにとって、完全にインタラクティブです!

    まとめ

    このセットアップは決して安くはありませんが、Apple Siliconとオープンソースコミュニティの努力によって、分散型AIの未来が到来していることを証明しています。私たちはデータをクラウドの巨人に送る必要はなく、手元のデバイスを利用して強力なプライベート推論クラスターを構築することができます。

    Published in Technology

    You Might Also Like

    📝
    Technology

    Claude Code Buddy 修正ガイド:どのようにしてシャイニングレジェンド級ペットを手に入れるか

    Claude Code Buddy 修正ガイド:どのようにしてシャイニングレジェンド級ペットを手に入れるか 2026年4月1日、Anthropic は Claude Code 2.1.89 バージョンでひっそりとエッグ機能を追加しました——...

    ObsidianはDefuddleを発表し、Obsidian Web Clipperを新たな高みへと引き上げたTechnology

    ObsidianはDefuddleを発表し、Obsidian Web Clipperを新たな高みへと引き上げた

    ObsidianはDefuddleを発表し、Obsidian Web Clipperを新たな高みへと引き上げた 私はObsidianのコア理念がとても好きです:ローカルファースト、すべてはファイル、そして単純なMarkdownテキストファ...

    OpenAIが突然発表した「三合一」:ブラウザ+プログラミング+ChatGPTの統合、内部で過去1年の誤りを認めるTechnology

    OpenAIが突然発表した「三合一」:ブラウザ+プログラミング+ChatGPTの統合、内部で過去1年の誤りを認める

    OpenAIが突然発表した「三合一」:ブラウザ+プログラミング+ChatGPTの統合、内部で過去1年の誤りを認める 2026年3月19日深夜、OpenAI本社から内部メモが流出し、『ウォール・ストリート・ジャーナル』が真っ先に原文を入手し...

    2026年、自分を「自律」に縛らない!この8つの小さなことを実践すれば、健康は自然にやってくるHealth

    2026年、自分を「自律」に縛らない!この8つの小さなことを実践すれば、健康は自然にやってくる

    2026年、自分を「自律」に縛らない!この8つの小さなことを実践すれば、健康は自然にやってくる 新しい年が始まりましたが、昨年立てた目標は達成できましたか?毎年「やる気満々」と「諦めたい」の間で揺れ動いていませんか? 2026年、考え方を...

    努力しても痩せられないママたち、絶対にここでつまずいているHealth

    努力しても痩せられないママたち、絶対にここでつまずいている

    努力しても痩せられないママたち、絶対にここでつまずいている 3月も半ばを過ぎましたが、あなたのダイエット計画はどうですか?痩せましたか?どれくらい痩せましたか? 私のダイエット経験 2月末にダイエットを決意してから、実際にはどんどん体重...

    📝
    Technology

    AIブラウザ 24時間安定運用ガイド

    AIブラウザ 24時間安定運用ガイド 本チュートリアルでは、安定して長期間運用できるAIブラウザ環境の構築方法を紹介します。 対象 AIエージェント 自動化ブラウジング Web自動化 AIアシスタント 自動テストシステム 目標 ブラウザを...