Kostar endast 300 000? Bygg en personlig AI-superdator med 4 stycken 512GB Mac Studio, lokal installationsguide för biljoner parametrar Kimi-K2.5
Kostar endast 300 000? Bygg en personlig AI-superdator med 4 stycken 512GB Mac Studio, lokal installationsguide för biljoner parametrar Kimi-K2.5
I denna tid av stora modeller har vi alla en dröm: att köra en biljonparametrars modell på lokal nivå som kan mäta sig med GPT-5. Men verkligheten är hård, biljonparametrars modeller kräver enorma mängder videominne även med 4-bitars kvantisering. H100 och B200 är för dyra, vad ska man göra?
Idag tar JamePeng med oss för att använda 4 stycken fullt utrustade M3 Ultra Mac Studio, genom EXO+MLX och Thunderbolt 5, för att skapa en lokal AI-superdator med 2TB enhetligt minne! Målet är enkelt: att köra Kimi-K2.5 biljonparametrars stor modell lokalt.
Varför göra detta?
Inte bara för att det är coolt, utan också för dataskydd och extrem lokal kontroll.
Det centrala verktyget är EXO (GitHub: exo-explore/exo), som stödjer RDMA (Remote Direct Memory Access) och kan sammanfoga det enhetliga minnet från 4 Mac-datorer till en stor videominnepool.
Hårdvarulista: 4 stycken Mac Studio (M3 Ultra, 512GB minnesversion), totalt videominne cirka 2TB, ansluten via Thunderbolt 5 (120Gbps bandbredd), systemet behöver macOS Tahoe 26.2 eller nyare version.
Steg 1: Aktivera RDMA-stöd
Utför på varje Mac:
- Stäng av Mac, gå in i återställningsläge (håll ner strömbrytaren, välj "Alternativ" > "Fortsätt")
- Öppna Terminal, kör: bputil -a rdma
- Starta om Mac
- Verifiera: systemprofiler SPThunderboltDataType för att kontrollera att RDMA är aktiverat
Steg 2: Installera EXO
macOS App-installation: Ladda ner EXO-version.dmg från GitHub, installera och kör. Öppna Dashboard och lägg till andra Mac-IP.
Källkodinstallation:
- Installera Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Steg 3: Fysisk anslutning och topologi
Använd inte Wi-Fi för nätverk! Inte ens Wi-Fi 7 fungerar. Biljonmodellens inferens är extremt känslig för bandbredd. Använd Thunderbolt 5-kablar, ställ in en Mac som huvudnod (Master) och de andra tre som arbetsnoder (Worker). Rekommenderad stjärnformad topologi eller kedjeanslutning.
I EXO Dashboard bör du se att alla 4 enheter är online, och den totala minnespoolen visas som 2048 GB.
Steg 4: Ladda ner och kör MLX-communityversionen av Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Starta inferensmotorn:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Kommandot förklaras:
- --model: pekar på modellkatalogen
- --quant 4: använder 4-bitars kvantisering för att minska minnesanvändningen
- --shards auto: EXO delar automatiskt modellen intelligent
- --engine mlx: anropar M3 Ultra:s 76-kärniga GPU och Neural Engine för inferens
Slutlig effekt och mätningar
När terminalen visar Ready har du en egen AI-superdator.
Förfyllningsfas: Fläktarna på 4 Mac börjar snurra något snabbare (tack vare M3 Ultras energieffektivitet, de kommer inte att flyga iväg).
Genereringsfas: Token dyker upp en efter en.
Hastighet: Även om det inte kan mäta sig med H100-kluster, kan token-genereringshastigheten tack vare Thunderbolt 5:s RDMA nå 17-28 tokens/s. Detta är helt interaktivt för en biljonparametrars modell!
Sammanfattning
Denna lösning är absolut inte billig, men den bevisar att med Apple Silicon + öppen källkodsgemenskapens insatser är framtiden för decentraliserad AI på väg att komma. Vi behöver inte skicka data till molnjättar; med hjälp av enheter vi har till hands kan vi bygga kraftfulla privata inferenskluster.

