Kosten nur 300.000? Anleitung zum Aufbau eines persönlichen AI-Supercomputers mit 4 Mac Studios mit 512 GB, lokal bereitgestelltes Billionenparameter-Modell Kimi-K2.5

In dieser Ära des rasanten Wachstums großer Modelle haben wir alle einen Traum: ein Billionenparameter-Modell lokal zu betreiben, das mit GPT-5 vergleichbar ist. Aber die Realität ist hart, selbst ein 4-Bit quantisiertes Modell benötigt eine enorme Menge an Grafikspeicher. H100, B200 sind zu teuer, was tun?

Heute zeigt JamePeng, wie man mit 4 voll ausgestatteten M3 Ultra Mac Studios, über EXO+MLX und Thunderbolt 5, einen lokalen AI-Supercomputer mit 2 TB einheitlichem Speicher zusammenstellt! Das Ziel ist einfach: das Kimi-K2.5 Billionenparameter-Modell lokal zum Laufen zu bringen.

Warum das Ganze?

Es geht nicht nur um den Coolness-Faktor, sondern auch um Datenschutz und maximale lokale Kontrolle.

Die Hauptwaffe ist EXO (GitHub: exo-explore/exo), das RDMA (Remote Direct Memory Access) unterstützt und den einheitlichen Speicher von 4 Macs zu einem riesigen Grafikspeicherpool zusammenführt.

Hardwareliste: 4 Mac Studios (M3 Ultra, 512 GB RAM-Version), insgesamt etwa 2 TB Grafikspeicher, verbunden über Thunderbolt 5 (120 Gbps Bandbreite), das System benötigt macOS Tahoe 26.2 oder eine neuere Version.

Schritt 1: RDMA-Unterstützung aktivieren

Auf jedem Mac:

Mac ausschalten, in den Wiederherstellungsmodus gehen (Power-Taste gedrückt halten, "Optionen" > "Fortfahren" wählen)
Terminal öffnen, ausführen: bputil -a rdma
Mac neu starten
Überprüfen: systemprofiler SPThunderboltDataType überprüfen, um sicherzustellen, dass RDMA aktiviert ist.

Thunderbolt 5 bietet 120 Gbps Bandbreite und unterstützt den Datentransfer perfekt.

Schritt 2: EXO installieren

macOS App-Installation: EXO-version.dmg von GitHub herunterladen, installieren und ausführen. Dashboard öffnen und andere Mac-IP hinzufügen.

Quellcode-Installation:

Homebrew installieren

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Schritt 3: Physikalische Verbindung und Topologie

Verwenden Sie kein Wi-Fi für das Netzwerk! Selbst Wi-Fi 7 ist nicht geeignet. Die Inferenz eines Billionenmodells ist extrem bandbreitensensibel. Bitte verwenden Sie Thunderbolt 5-Kabel, um einen Mac als Master-Knoten und die anderen drei als Worker-Knoten zu verwenden. Stern- oder Ketten-Topologie wird empfohlen.

Im EXO Dashboard sollten Sie sehen, dass alle 4 Geräte online sind und der gesamte Speicherpool 2048 GB anzeigt.

Schritt 4: MLX Community Edition Kimi-K2.5 herunterladen und ausführen

Modell herunterladen:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Inferenz-Engine starten:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Befehlserklärung:

--model: verweist auf das Modellverzeichnis
--quant 4: verwendet 4-Bit-Quantisierung zur Reduzierung des Speicherverbrauchs
--shards auto: EXO teilt das Modell automatisch intelligent auf
--engine mlx: nutzt die 76-Kern-GPU und den Neural Engine des M3 Ultra für die Inferenz

Endergebnis und Tests

Wenn das Terminal "Bereit" anzeigt, haben Sie Ihren eigenen AI-Supercomputer.

Pre-Fill-Phase: Die Lüfter der 4 Macs beginnen leicht zu beschleunigen (dank der Energieeffizienz des M3 Ultra wird es nicht laut).

Generierungsphase: Tokens erscheinen nacheinander.

Geschwindigkeit: Obwohl es nicht mit einem H100-Cluster mithalten kann, kann die Token-Generierung dank der RDMA-Unterstützung von Thunderbolt 5 Geschwindigkeiten von 17-28 tokens/s erreichen. Das ist für ein Billionenparameter-Modell absolut interaktiv!

Fazit

Dieses Setup ist definitiv nicht billig, aber es beweist, dass mit Apple Silicon und den Bemühungen der Open-Source-Community die Zukunft der dezentralen AI naht. Wir müssen unsere Daten nicht an Cloud-Riesen übermitteln; mit den Geräten, die wir zur Verfügung haben, können wir leistungsstarke private Inferenzcluster aufbauen.

Kosten nur 300.000? Anleitung zum Aufbau eines persönlichen AI-Supercomputers mit 4 Mac Studios mit 512 GB, lokal bereitgestelltes Billionenparameter-Modell Kimi-K2.5

Kosten nur 300.000? Anleitung zum Aufbau eines persönlichen AI-Supercomputers mit 4 Mac Studios mit 512 GB, lokal bereitgestelltes Billionenparameter-Modell Kimi-K2.5

Warum das Ganze?

Schritt 1: RDMA-Unterstützung aktivieren

Schritt 2: EXO installieren

Schritt 3: Physikalische Verbindung und Topologie

Schritt 4: MLX Community Edition Kimi-K2.5 herunterladen und ausführen

Endergebnis und Tests

Fazit

You Might Also Like

Claude Code Buddy Änderungsanleitung: Wie man ein schimmerndes legendäres Haustier erhält

Obsidian hat Defuddle eingeführt und den Obsidian Web Clipper auf ein neues Niveau gehoben

OpenAI kündigt plötzlich "Drei-in-eins" an: Fusion von Browser + Programmierung + ChatGPT, interne Anerkennung von Fehlern im vergangenen Jahr

2026, sich nicht mehr selbst zur 'Disziplin' zwingen! Machen Sie diese 8 kleinen Dinge gut, Gesundheit kommt von ganz allein

Die Mütter, die sich bemühen abzunehmen und es nicht schaffen, scheitern definitiv hier

AI Browser 24 Stunden Stabilitätsleitfaden