Kosten slechts 300.000? Een persoonlijke AI-supercomputer bouwen met 4 Mac Studio's van 512GB, gids voor lokale implementatie van het triljoen parameters Kimi-K2.5
Kosten slechts 300.000? Een persoonlijke AI-supercomputer bouwen met 4 Mac Studio's van 512GB, gids voor lokale implementatie van het triljoen parameters Kimi-K2.5
In dit tijdperk van grote modellen hebben we allemaal een droom: een triljoen parameters model lokaal draaien dat kan concurreren met GPT-5. Maar de realiteit is hard; zelfs een 4-bit gekwantificeerd model heeft enorme hoeveelheden videogeheugen nodig. H100, B200 zijn te duur, wat nu?
Vandaag neemt JamePeng ons mee om met 4 volledig uitgeruste M3 Ultra Mac Studio's, via EXO+MLX en Thunderbolt 5, een lokale AI-supercomputer te creëren met 2TB unified memory! Het doel is eenvoudig: Kimi-K2.5, een triljoen parameters groot model, lokaal laten draaien.
Waarom deze moeite?
Niet alleen voor de coolheid, maar ook voor gegevensprivacy en ultieme lokale controle.
Het belangrijkste wapen is EXO (GitHub: exo-explore/exo), dat RDMA (Remote Direct Memory Access) ondersteunt en de unified memory van 4 Macs kan samenvoegen tot een enorme pool van videogeheugen.
Hardwarelijst: 4 Mac Studio's (M3 Ultra, 512GB geheugenversie), totaal videogeheugen ongeveer 2TB, verbinding via Thunderbolt 5 (120Gbps bandbreedte), systeem vereist macOS Tahoe 26.2 of een nieuwere versie.
Stap 1: RDMA-ondersteuning inschakelen
Voer de volgende stappen uit op elke Mac:
- Zet de Mac uit en ga naar de herstelmodus (houd de aan/uit-knop ingedrukt, kies "Opties" > "Doorgaan")
- Open Terminal en voer uit: bputil -a rdma
- Herstart de Mac
- Verifieer: systemprofiler SPThunderboltDataType om te controleren of RDMA is ingeschakeld
Stap 2: EXO installeren
macOS App installatie: Download EXO-version.dmg van GitHub en installeer het. Open het Dashboard en voeg andere Mac IP's toe.
Broncode-installatie:
- Installeer Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Stap 3: Fysieke verbinding en topologie
Gebruik geen Wi-Fi voor netwerken! Zelfs Wi-Fi 7 is niet voldoende. De inferentie van triljoen modellen is extreem gevoelig voor bandbreedte. Gebruik Thunderbolt 5-kabels en stel één Mac in als hoofdnode (Master) en de andere drie als werknodes (Worker). Sterren- of ketenverbindingen worden aanbevolen.
In het EXO Dashboard zou je moeten zien dat alle 4 apparaten online zijn, met een totale geheugencapaciteit van 2048 GB.
Stap 4: Download en voer de MLX-communityversie van Kimi-K2.5 uit
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Opdracht uitleg:
- --model: wijst naar de modelmap
- --quant 4: gebruikt 4-bit kwantisatie om het geheugengebruik te verminderen
- --shards auto: EXO splitst het model automatisch en intelligent
- --engine mlx: roept de 76-core GPU en Neural Engine van de M3 Ultra aan voor inferentie
Eindresultaat en metingen
Wanneer de terminal "Klaar" aangeeft, heb je je eigen AI-supercomputer.
Prefill-fase: De ventilatoren van de 4 Macs beginnen licht te versnellen (dankzij de energie-efficiëntie van de M3 Ultra, ze stijgen niet op).
Generatiefase: Tokens komen één voor één tevoorschijn.
Snelheid: Hoewel het niet kan tippen aan een H100-cluster, kan de token-generatiesnelheid dankzij de RDMA-ondersteuning van Thunderbolt 5 oplopen tot 17-28 tokens/s. Dit is volledig interactief voor een triljoen parameters model!
Samenvatting
Deze oplossing is absoluut niet goedkoop, maar het bewijst dat met de inspanningen van Apple Silicon + de open-source gemeenschap, de toekomst van gedecentraliseerde AI aan het komen is. We hoeven onze gegevens niet naar cloudgiganten te sturen; met de apparaten die we bij de hand hebben, kunnen we krachtige privé-inferentieclusters bouwen.

