Kosten nur 300.000? Anleitung zum Aufbau eines persönlichen AI-Supercomputers mit 4 Mac Studios mit 512 GB, lokal bereitgestelltes Billionenparameter-Modell Kimi-K2.5

2/26/2026
3 min read

Kosten nur 300.000? Anleitung zum Aufbau eines persönlichen AI-Supercomputers mit 4 Mac Studios mit 512 GB, lokal bereitgestelltes Billionenparameter-Modell Kimi-K2.5

In dieser Ära des rasanten Wachstums großer Modelle haben wir alle einen Traum: ein Billionenparameter-Modell lokal zu betreiben, das mit GPT-5 vergleichbar ist. Aber die Realität ist hart, selbst ein 4-Bit quantisiertes Modell benötigt eine enorme Menge an Grafikspeicher. H100, B200 sind zu teuer, was tun?

Heute zeigt JamePeng, wie man mit 4 voll ausgestatteten M3 Ultra Mac Studios, über EXO+MLX und Thunderbolt 5, einen lokalen AI-Supercomputer mit 2 TB einheitlichem Speicher zusammenstellt! Das Ziel ist einfach: das Kimi-K2.5 Billionenparameter-Modell lokal zum Laufen zu bringen.

Warum das Ganze?

Es geht nicht nur um den Coolness-Faktor, sondern auch um Datenschutz und maximale lokale Kontrolle.

Die Hauptwaffe ist EXO (GitHub: exo-explore/exo), das RDMA (Remote Direct Memory Access) unterstützt und den einheitlichen Speicher von 4 Macs zu einem riesigen Grafikspeicherpool zusammenführt.

Hardwareliste: 4 Mac Studios (M3 Ultra, 512 GB RAM-Version), insgesamt etwa 2 TB Grafikspeicher, verbunden über Thunderbolt 5 (120 Gbps Bandbreite), das System benötigt macOS Tahoe 26.2 oder eine neuere Version.

Schritt 1: RDMA-Unterstützung aktivieren

Auf jedem Mac:

  • Mac ausschalten, in den Wiederherstellungsmodus gehen (Power-Taste gedrückt halten, "Optionen" > "Fortfahren" wählen)
  • Terminal öffnen, ausführen: bputil -a rdma
  • Mac neu starten
  • Überprüfen: systemprofiler SPThunderboltDataType überprüfen, um sicherzustellen, dass RDMA aktiviert ist.
Thunderbolt 5 bietet 120 Gbps Bandbreite und unterstützt den Datentransfer perfekt.

Schritt 2: EXO installieren

macOS App-Installation: EXO-version.dmg von GitHub herunterladen, installieren und ausführen. Dashboard öffnen und andere Mac-IP hinzufügen.

Quellcode-Installation:

  • Homebrew installieren
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Schritt 3: Physikalische Verbindung und Topologie

Verwenden Sie kein Wi-Fi für das Netzwerk! Selbst Wi-Fi 7 ist nicht geeignet. Die Inferenz eines Billionenmodells ist extrem bandbreitensensibel. Bitte verwenden Sie Thunderbolt 5-Kabel, um einen Mac als Master-Knoten und die anderen drei als Worker-Knoten zu verwenden. Stern- oder Ketten-Topologie wird empfohlen.

Im EXO Dashboard sollten Sie sehen, dass alle 4 Geräte online sind und der gesamte Speicherpool 2048 GB anzeigt.

Schritt 4: MLX Community Edition Kimi-K2.5 herunterladen und ausführen

  • Modell herunterladen:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Inferenz-Engine starten:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Befehlserklärung:

    • --model: verweist auf das Modellverzeichnis
    • --quant 4: verwendet 4-Bit-Quantisierung zur Reduzierung des Speicherverbrauchs
    • --shards auto: EXO teilt das Modell automatisch intelligent auf
    • --engine mlx: nutzt die 76-Kern-GPU und den Neural Engine des M3 Ultra für die Inferenz

    Endergebnis und Tests

    Wenn das Terminal "Bereit" anzeigt, haben Sie Ihren eigenen AI-Supercomputer.

    Pre-Fill-Phase: Die Lüfter der 4 Macs beginnen leicht zu beschleunigen (dank der Energieeffizienz des M3 Ultra wird es nicht laut).

    Generierungsphase: Tokens erscheinen nacheinander.

    Geschwindigkeit: Obwohl es nicht mit einem H100-Cluster mithalten kann, kann die Token-Generierung dank der RDMA-Unterstützung von Thunderbolt 5 Geschwindigkeiten von 17-28 tokens/s erreichen. Das ist für ein Billionenparameter-Modell absolut interaktiv!

    Fazit

    Dieses Setup ist definitiv nicht billig, aber es beweist, dass mit Apple Silicon und den Bemühungen der Open-Source-Community die Zukunft der dezentralen AI naht. Wir müssen unsere Daten nicht an Cloud-Riesen übermitteln; mit den Geräten, die wir zur Verfügung haben, können wir leistungsstarke private Inferenzcluster aufbauen.

    Published in Technology

    You Might Also Like