Kostar endast 300 000? Bygg en personlig AI-superdator med 4 stycken 512GB Mac Studio, lokal installationsguide för biljoner parametrar Kimi-K2.5

2/26/2026
3 min read

Kostar endast 300 000? Bygg en personlig AI-superdator med 4 stycken 512GB Mac Studio, lokal installationsguide för biljoner parametrar Kimi-K2.5

I denna tid av stora modeller har vi alla en dröm: att köra en biljonparametrars modell på lokal nivå som kan mäta sig med GPT-5. Men verkligheten är hård, biljonparametrars modeller kräver enorma mängder videominne även med 4-bitars kvantisering. H100 och B200 är för dyra, vad ska man göra?

Idag tar JamePeng med oss för att använda 4 stycken fullt utrustade M3 Ultra Mac Studio, genom EXO+MLX och Thunderbolt 5, för att skapa en lokal AI-superdator med 2TB enhetligt minne! Målet är enkelt: att köra Kimi-K2.5 biljonparametrars stor modell lokalt.

Varför göra detta?

Inte bara för att det är coolt, utan också för dataskydd och extrem lokal kontroll.

Det centrala verktyget är EXO (GitHub: exo-explore/exo), som stödjer RDMA (Remote Direct Memory Access) och kan sammanfoga det enhetliga minnet från 4 Mac-datorer till en stor videominnepool.

Hårdvarulista: 4 stycken Mac Studio (M3 Ultra, 512GB minnesversion), totalt videominne cirka 2TB, ansluten via Thunderbolt 5 (120Gbps bandbredd), systemet behöver macOS Tahoe 26.2 eller nyare version.

Steg 1: Aktivera RDMA-stöd

Utför på varje Mac:

  • Stäng av Mac, gå in i återställningsläge (håll ner strömbrytaren, välj "Alternativ" > "Fortsätt")
  • Öppna Terminal, kör: bputil -a rdma
  • Starta om Mac
  • Verifiera: systemprofiler SPThunderboltDataType för att kontrollera att RDMA är aktiverat
Thunderbolt 5 erbjuder 120Gbps bandbredd, perfekt för datatransfer.

Steg 2: Installera EXO

macOS App-installation: Ladda ner EXO-version.dmg från GitHub, installera och kör. Öppna Dashboard och lägg till andra Mac-IP.

Källkodinstallation:

  • Installera Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Steg 3: Fysisk anslutning och topologi

Använd inte Wi-Fi för nätverk! Inte ens Wi-Fi 7 fungerar. Biljonmodellens inferens är extremt känslig för bandbredd. Använd Thunderbolt 5-kablar, ställ in en Mac som huvudnod (Master) och de andra tre som arbetsnoder (Worker). Rekommenderad stjärnformad topologi eller kedjeanslutning.

I EXO Dashboard bör du se att alla 4 enheter är online, och den totala minnespoolen visas som 2048 GB.

Steg 4: Ladda ner och kör MLX-communityversionen av Kimi-K2.5

  • Ladda ner modellen:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Starta inferensmotorn:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Kommandot förklaras:

    • --model: pekar på modellkatalogen
    • --quant 4: använder 4-bitars kvantisering för att minska minnesanvändningen
    • --shards auto: EXO delar automatiskt modellen intelligent
    • --engine mlx: anropar M3 Ultra:s 76-kärniga GPU och Neural Engine för inferens

    Slutlig effekt och mätningar

    När terminalen visar Ready har du en egen AI-superdator.

    Förfyllningsfas: Fläktarna på 4 Mac börjar snurra något snabbare (tack vare M3 Ultras energieffektivitet, de kommer inte att flyga iväg).

    Genereringsfas: Token dyker upp en efter en.

    Hastighet: Även om det inte kan mäta sig med H100-kluster, kan token-genereringshastigheten tack vare Thunderbolt 5:s RDMA nå 17-28 tokens/s. Detta är helt interaktivt för en biljonparametrars modell!

    Sammanfattning

    Denna lösning är absolut inte billig, men den bevisar att med Apple Silicon + öppen källkodsgemenskapens insatser är framtiden för decentraliserad AI på väg att komma. Vi behöver inte skicka data till molnjättar; med hjälp av enheter vi har till hands kan vi bygga kraftfulla privata inferenskluster.

    Published in Technology

    You Might Also Like