Kosten slechts 300.000? Een persoonlijke AI-supercomputer bouwen met 4 Mac Studio's van 512GB, gids voor lokale implementatie van het triljoen parameters Kimi-K2.5

2/26/2026
3 min read

Kosten slechts 300.000? Een persoonlijke AI-supercomputer bouwen met 4 Mac Studio's van 512GB, gids voor lokale implementatie van het triljoen parameters Kimi-K2.5

In dit tijdperk van grote modellen hebben we allemaal een droom: een triljoen parameters model lokaal draaien dat kan concurreren met GPT-5. Maar de realiteit is hard; zelfs een 4-bit gekwantificeerd model heeft enorme hoeveelheden videogeheugen nodig. H100, B200 zijn te duur, wat nu?

Vandaag neemt JamePeng ons mee om met 4 volledig uitgeruste M3 Ultra Mac Studio's, via EXO+MLX en Thunderbolt 5, een lokale AI-supercomputer te creëren met 2TB unified memory! Het doel is eenvoudig: Kimi-K2.5, een triljoen parameters groot model, lokaal laten draaien.

Waarom deze moeite?

Niet alleen voor de coolheid, maar ook voor gegevensprivacy en ultieme lokale controle.

Het belangrijkste wapen is EXO (GitHub: exo-explore/exo), dat RDMA (Remote Direct Memory Access) ondersteunt en de unified memory van 4 Macs kan samenvoegen tot een enorme pool van videogeheugen.

Hardwarelijst: 4 Mac Studio's (M3 Ultra, 512GB geheugenversie), totaal videogeheugen ongeveer 2TB, verbinding via Thunderbolt 5 (120Gbps bandbreedte), systeem vereist macOS Tahoe 26.2 of een nieuwere versie.

Stap 1: RDMA-ondersteuning inschakelen

Voer de volgende stappen uit op elke Mac:

  • Zet de Mac uit en ga naar de herstelmodus (houd de aan/uit-knop ingedrukt, kies "Opties" > "Doorgaan")
  • Open Terminal en voer uit: bputil -a rdma
  • Herstart de Mac
  • Verifieer: systemprofiler SPThunderboltDataType om te controleren of RDMA is ingeschakeld
Thunderbolt 5 biedt 120Gbps bandbreedte, perfect voor gegevensoverdracht.

Stap 2: EXO installeren

macOS App installatie: Download EXO-version.dmg van GitHub en installeer het. Open het Dashboard en voeg andere Mac IP's toe.

Broncode-installatie:

  • Installeer Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Stap 3: Fysieke verbinding en topologie

Gebruik geen Wi-Fi voor netwerken! Zelfs Wi-Fi 7 is niet voldoende. De inferentie van triljoen modellen is extreem gevoelig voor bandbreedte. Gebruik Thunderbolt 5-kabels en stel één Mac in als hoofdnode (Master) en de andere drie als werknodes (Worker). Sterren- of ketenverbindingen worden aanbevolen.

In het EXO Dashboard zou je moeten zien dat alle 4 apparaten online zijn, met een totale geheugencapaciteit van 2048 GB.

Stap 4: Download en voer de MLX-communityversie van Kimi-K2.5 uit

  • Download het model:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5

  • Start de inferentie-engine:
  • exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Opdracht uitleg:

    • --model: wijst naar de modelmap
    • --quant 4: gebruikt 4-bit kwantisatie om het geheugengebruik te verminderen
    • --shards auto: EXO splitst het model automatisch en intelligent
    • --engine mlx: roept de 76-core GPU en Neural Engine van de M3 Ultra aan voor inferentie

    Eindresultaat en metingen

    Wanneer de terminal "Klaar" aangeeft, heb je je eigen AI-supercomputer.

    Prefill-fase: De ventilatoren van de 4 Macs beginnen licht te versnellen (dankzij de energie-efficiëntie van de M3 Ultra, ze stijgen niet op).

    Generatiefase: Tokens komen één voor één tevoorschijn.

    Snelheid: Hoewel het niet kan tippen aan een H100-cluster, kan de token-generatiesnelheid dankzij de RDMA-ondersteuning van Thunderbolt 5 oplopen tot 17-28 tokens/s. Dit is volledig interactief voor een triljoen parameters model!

    Samenvatting

    Deze oplossing is absoluut niet goedkoop, maar het bewijst dat met de inspanningen van Apple Silicon + de open-source gemeenschap, de toekomst van gedecentraliseerde AI aan het komen is. We hoeven onze gegevens niet naar cloudgiganten te sturen; met de apparaten die we bij de hand hebben, kunnen we krachtige privé-inferentieclusters bouwen.

    Published in Technology

    You Might Also Like