Kosten slechts 300.000? Een persoonlijke AI-supercomputer bouwen met 4 Mac Studio's van 512GB, gids voor lokale implementatie van het triljoen parameters Kimi-K2.5

In dit tijdperk van grote modellen hebben we allemaal een droom: een triljoen parameters model lokaal draaien dat kan concurreren met GPT-5. Maar de realiteit is hard; zelfs een 4-bit gekwantificeerd model heeft enorme hoeveelheden videogeheugen nodig. H100, B200 zijn te duur, wat nu?

Vandaag neemt JamePeng ons mee om met 4 volledig uitgeruste M3 Ultra Mac Studio's, via EXO+MLX en Thunderbolt 5, een lokale AI-supercomputer te creëren met 2TB unified memory! Het doel is eenvoudig: Kimi-K2.5, een triljoen parameters groot model, lokaal laten draaien.

Waarom deze moeite?

Niet alleen voor de coolheid, maar ook voor gegevensprivacy en ultieme lokale controle.

Het belangrijkste wapen is EXO (GitHub: exo-explore/exo), dat RDMA (Remote Direct Memory Access) ondersteunt en de unified memory van 4 Macs kan samenvoegen tot een enorme pool van videogeheugen.

Hardwarelijst: 4 Mac Studio's (M3 Ultra, 512GB geheugenversie), totaal videogeheugen ongeveer 2TB, verbinding via Thunderbolt 5 (120Gbps bandbreedte), systeem vereist macOS Tahoe 26.2 of een nieuwere versie.

Stap 1: RDMA-ondersteuning inschakelen

Voer de volgende stappen uit op elke Mac:

Zet de Mac uit en ga naar de herstelmodus (houd de aan/uit-knop ingedrukt, kies "Opties" > "Doorgaan")
Open Terminal en voer uit: bputil -a rdma
Herstart de Mac
Verifieer: systemprofiler SPThunderboltDataType om te controleren of RDMA is ingeschakeld

Thunderbolt 5 biedt 120Gbps bandbreedte, perfect voor gegevensoverdracht.

Stap 2: EXO installeren

macOS App installatie: Download EXO-version.dmg van GitHub en installeer het. Open het Dashboard en voeg andere Mac IP's toe.

Broncode-installatie:

Installeer Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Stap 3: Fysieke verbinding en topologie

Gebruik geen Wi-Fi voor netwerken! Zelfs Wi-Fi 7 is niet voldoende. De inferentie van triljoen modellen is extreem gevoelig voor bandbreedte. Gebruik Thunderbolt 5-kabels en stel één Mac in als hoofdnode (Master) en de andere drie als werknodes (Worker). Sterren- of ketenverbindingen worden aanbevolen.

In het EXO Dashboard zou je moeten zien dat alle 4 apparaten online zijn, met een totale geheugencapaciteit van 2048 GB.

Stap 4: Download en voer de MLX-communityversie van Kimi-K2.5 uit

Download het model:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5

Start de inferentie-engine:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Opdracht uitleg:

--model: wijst naar de modelmap
--quant 4: gebruikt 4-bit kwantisatie om het geheugengebruik te verminderen
--shards auto: EXO splitst het model automatisch en intelligent
--engine mlx: roept de 76-core GPU en Neural Engine van de M3 Ultra aan voor inferentie

Eindresultaat en metingen

Wanneer de terminal "Klaar" aangeeft, heb je je eigen AI-supercomputer.

Prefill-fase: De ventilatoren van de 4 Macs beginnen licht te versnellen (dankzij de energie-efficiëntie van de M3 Ultra, ze stijgen niet op).

Generatiefase: Tokens komen één voor één tevoorschijn.

Snelheid: Hoewel het niet kan tippen aan een H100-cluster, kan de token-generatiesnelheid dankzij de RDMA-ondersteuning van Thunderbolt 5 oplopen tot 17-28 tokens/s. Dit is volledig interactief voor een triljoen parameters model!

Samenvatting

Deze oplossing is absoluut niet goedkoop, maar het bewijst dat met de inspanningen van Apple Silicon + de open-source gemeenschap, de toekomst van gedecentraliseerde AI aan het komen is. We hoeven onze gegevens niet naar cloudgiganten te sturen; met de apparaten die we bij de hand hebben, kunnen we krachtige privé-inferentieclusters bouwen.

Kosten slechts 300.000? Een persoonlijke AI-supercomputer bouwen met 4 Mac Studio's van 512GB, gids voor lokale implementatie van het triljoen parameters Kimi-K2.5

Kosten slechts 300.000? Een persoonlijke AI-supercomputer bouwen met 4 Mac Studio's van 512GB, gids voor lokale implementatie van het triljoen parameters Kimi-K2.5

Waarom deze moeite?

Stap 1: RDMA-ondersteuning inschakelen

Stap 2: EXO installeren

Stap 3: Fysieke verbinding en topologie

Stap 4: Download en voer de MLX-communityversie van Kimi-K2.5 uit

Eindresultaat en metingen

Samenvatting

You Might Also Like

Claude Code Buddy Wijzigingsgids: Hoe je een Glanzend Legendarisch Huisdier Krijgt

Obsidian heeft Defuddle gelanceerd, waardoor Obsidian Web Clipper naar een nieuw niveau is getild

OpenAI kondigt plotseling 'drie-in-één' aan: browser + programmeren + ChatGPT samengevoegd, interne erkenning van fouten van het afgelopen jaar

2026, niet meer jezelf dwingen tot 'discipline'! Doe deze 8 kleine dingen goed, en gezondheid komt vanzelf

Die moeders die hard proberen af te vallen maar niet slanker worden, zijn hier absoluut de dupe van

AI Browser 24 uur stabiele werking gids