Kostar endast 300 000? Bygg en personlig AI-superdator med 4 stycken 512GB Mac Studio, lokal installationsguide för biljoner parametrar Kimi-K2.5

I denna tid av stora modeller har vi alla en dröm: att köra en biljonparametrars modell på lokal nivå som kan mäta sig med GPT-5. Men verkligheten är hård, biljonparametrars modeller kräver enorma mängder videominne även med 4-bitars kvantisering. H100 och B200 är för dyra, vad ska man göra?

Idag tar JamePeng med oss för att använda 4 stycken fullt utrustade M3 Ultra Mac Studio, genom EXO+MLX och Thunderbolt 5, för att skapa en lokal AI-superdator med 2TB enhetligt minne! Målet är enkelt: att köra Kimi-K2.5 biljonparametrars stor modell lokalt.

Varför göra detta?

Inte bara för att det är coolt, utan också för dataskydd och extrem lokal kontroll.

Det centrala verktyget är EXO (GitHub: exo-explore/exo), som stödjer RDMA (Remote Direct Memory Access) och kan sammanfoga det enhetliga minnet från 4 Mac-datorer till en stor videominnepool.

Hårdvarulista: 4 stycken Mac Studio (M3 Ultra, 512GB minnesversion), totalt videominne cirka 2TB, ansluten via Thunderbolt 5 (120Gbps bandbredd), systemet behöver macOS Tahoe 26.2 eller nyare version.

Steg 1: Aktivera RDMA-stöd

Utför på varje Mac:

Stäng av Mac, gå in i återställningsläge (håll ner strömbrytaren, välj "Alternativ" > "Fortsätt")
Öppna Terminal, kör: bputil -a rdma
Starta om Mac
Verifiera: systemprofiler SPThunderboltDataType för att kontrollera att RDMA är aktiverat

Thunderbolt 5 erbjuder 120Gbps bandbredd, perfekt för datatransfer.

Steg 2: Installera EXO

macOS App-installation: Ladda ner EXO-version.dmg från GitHub, installera och kör. Öppna Dashboard och lägg till andra Mac-IP.

Källkodinstallation:

Installera Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Steg 3: Fysisk anslutning och topologi

Använd inte Wi-Fi för nätverk! Inte ens Wi-Fi 7 fungerar. Biljonmodellens inferens är extremt känslig för bandbredd. Använd Thunderbolt 5-kablar, ställ in en Mac som huvudnod (Master) och de andra tre som arbetsnoder (Worker). Rekommenderad stjärnformad topologi eller kedjeanslutning.

I EXO Dashboard bör du se att alla 4 enheter är online, och den totala minnespoolen visas som 2048 GB.

Steg 4: Ladda ner och kör MLX-communityversionen av Kimi-K2.5

Ladda ner modellen:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Starta inferensmotorn:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Kommandot förklaras:

--model: pekar på modellkatalogen
--quant 4: använder 4-bitars kvantisering för att minska minnesanvändningen
--shards auto: EXO delar automatiskt modellen intelligent
--engine mlx: anropar M3 Ultra:s 76-kärniga GPU och Neural Engine för inferens

Slutlig effekt och mätningar

När terminalen visar Ready har du en egen AI-superdator.

Förfyllningsfas: Fläktarna på 4 Mac börjar snurra något snabbare (tack vare M3 Ultras energieffektivitet, de kommer inte att flyga iväg).

Genereringsfas: Token dyker upp en efter en.

Hastighet: Även om det inte kan mäta sig med H100-kluster, kan token-genereringshastigheten tack vare Thunderbolt 5:s RDMA nå 17-28 tokens/s. Detta är helt interaktivt för en biljonparametrars modell!

Sammanfattning

Denna lösning är absolut inte billig, men den bevisar att med Apple Silicon + öppen källkodsgemenskapens insatser är framtiden för decentraliserad AI på väg att komma. Vi behöver inte skicka data till molnjättar; med hjälp av enheter vi har till hands kan vi bygga kraftfulla privata inferenskluster.

Kostar endast 300 000? Bygg en personlig AI-superdator med 4 stycken 512GB Mac Studio, lokal installationsguide för biljoner parametrar Kimi-K2.5

Kostar endast 300 000? Bygg en personlig AI-superdator med 4 stycken 512GB Mac Studio, lokal installationsguide för biljoner parametrar Kimi-K2.5

Varför göra detta?

Steg 1: Aktivera RDMA-stöd

Steg 2: Installera EXO

Steg 3: Fysisk anslutning och topologi

Steg 4: Ladda ner och kör MLX-communityversionen av Kimi-K2.5

Slutlig effekt och mätningar

Sammanfattning

You Might Also Like

Claude Code Buddy ändringsguide: Hur man får glänsande legendariska husdjur

Obsidian har lanserat Defuddle, som tar Obsidian Web Clipper till en ny höjd

OpenAI plötsligt tillkännager "tre-i-ett": webbläsare + programmering + ChatGPT sammanslagning, internt erkännande av felaktig väg det senaste året

2026, sluta pressa dig själv till 'självdisciplin'! Gör dessa 8 små saker, hälsan kommer naturligt

De mammor som kämpar för att gå ner i vikt men inte lyckas, faller definitivt här

AI Browser 24-timmars stabil driftguide