Kosten nur 300.000? Anleitung zum Aufbau eines persönlichen AI-Supercomputers mit 4 Mac Studios mit 512 GB, lokal bereitgestelltes Billionenparameter-Modell Kimi-K2.5
Kosten nur 300.000? Anleitung zum Aufbau eines persönlichen AI-Supercomputers mit 4 Mac Studios mit 512 GB, lokal bereitgestelltes Billionenparameter-Modell Kimi-K2.5
In dieser Ära des rasanten Wachstums großer Modelle haben wir alle einen Traum: ein Billionenparameter-Modell lokal zu betreiben, das mit GPT-5 vergleichbar ist. Aber die Realität ist hart, selbst ein 4-Bit quantisiertes Modell benötigt eine enorme Menge an Grafikspeicher. H100, B200 sind zu teuer, was tun?
Heute zeigt JamePeng, wie man mit 4 voll ausgestatteten M3 Ultra Mac Studios, über EXO+MLX und Thunderbolt 5, einen lokalen AI-Supercomputer mit 2 TB einheitlichem Speicher zusammenstellt! Das Ziel ist einfach: das Kimi-K2.5 Billionenparameter-Modell lokal zum Laufen zu bringen.
Warum das Ganze?
Es geht nicht nur um den Coolness-Faktor, sondern auch um Datenschutz und maximale lokale Kontrolle.
Die Hauptwaffe ist EXO (GitHub: exo-explore/exo), das RDMA (Remote Direct Memory Access) unterstützt und den einheitlichen Speicher von 4 Macs zu einem riesigen Grafikspeicherpool zusammenführt.
Hardwareliste: 4 Mac Studios (M3 Ultra, 512 GB RAM-Version), insgesamt etwa 2 TB Grafikspeicher, verbunden über Thunderbolt 5 (120 Gbps Bandbreite), das System benötigt macOS Tahoe 26.2 oder eine neuere Version.
Schritt 1: RDMA-Unterstützung aktivieren
Auf jedem Mac:
- Mac ausschalten, in den Wiederherstellungsmodus gehen (Power-Taste gedrückt halten, "Optionen" > "Fortfahren" wählen)
- Terminal öffnen, ausführen: bputil -a rdma
- Mac neu starten
- Überprüfen: systemprofiler SPThunderboltDataType überprüfen, um sicherzustellen, dass RDMA aktiviert ist.
Schritt 2: EXO installieren
macOS App-Installation: EXO-version.dmg von GitHub herunterladen, installieren und ausführen. Dashboard öffnen und andere Mac-IP hinzufügen.
Quellcode-Installation:
- Homebrew installieren
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Schritt 3: Physikalische Verbindung und Topologie
Verwenden Sie kein Wi-Fi für das Netzwerk! Selbst Wi-Fi 7 ist nicht geeignet. Die Inferenz eines Billionenmodells ist extrem bandbreitensensibel. Bitte verwenden Sie Thunderbolt 5-Kabel, um einen Mac als Master-Knoten und die anderen drei als Worker-Knoten zu verwenden. Stern- oder Ketten-Topologie wird empfohlen.
Im EXO Dashboard sollten Sie sehen, dass alle 4 Geräte online sind und der gesamte Speicherpool 2048 GB anzeigt.
Schritt 4: MLX Community Edition Kimi-K2.5 herunterladen und ausführen
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Inferenz-Engine starten:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Befehlserklärung:
- --model: verweist auf das Modellverzeichnis
- --quant 4: verwendet 4-Bit-Quantisierung zur Reduzierung des Speicherverbrauchs
- --shards auto: EXO teilt das Modell automatisch intelligent auf
- --engine mlx: nutzt die 76-Kern-GPU und den Neural Engine des M3 Ultra für die Inferenz
Endergebnis und Tests
Wenn das Terminal "Bereit" anzeigt, haben Sie Ihren eigenen AI-Supercomputer.
Pre-Fill-Phase: Die Lüfter der 4 Macs beginnen leicht zu beschleunigen (dank der Energieeffizienz des M3 Ultra wird es nicht laut).
Generierungsphase: Tokens erscheinen nacheinander.
Geschwindigkeit: Obwohl es nicht mit einem H100-Cluster mithalten kann, kann die Token-Generierung dank der RDMA-Unterstützung von Thunderbolt 5 Geschwindigkeiten von 17-28 tokens/s erreichen. Das ist für ein Billionenparameter-Modell absolut interaktiv!
Fazit
Dieses Setup ist definitiv nicht billig, aber es beweist, dass mit Apple Silicon und den Bemühungen der Open-Source-Community die Zukunft der dezentralen AI naht. Wir müssen unsere Daten nicht an Cloud-Riesen übermitteln; mit den Geräten, die wir zur Verfügung haben, können wir leistungsstarke private Inferenzcluster aufbauen.

