Koster kun 300.000? Bygg en personlig AI-superdatamaskin med 4 stk 512GB Mac Studio, lokal distribusjonsguide for trillionparameter Kimi-K2.5

2/26/2026
3 min read

Koster kun 300.000? Bygg en personlig AI-superdatamaskin med 4 stk 512GB Mac Studio, lokal distribusjonsguide for trillionparameter Kimi-K2.5

I denne tiden med store modeller har vi alle en drøm: å kjøre en trillionparameter-modell på nivå med GPT-5 lokalt. Men virkeligheten er brutal; trillionparameter-modeller krever enorme mengder videominne, selv med 4-bit kvantisering. H100 og B200 er for dyre, hva skal man gjøre?

I dag tar JamePeng oss med for å bruke 4 fullt utstyrte M3 Ultra Mac Studio, gjennom EXO+MLX og Thunderbolt 5, for å lage en lokal AI-superdatamaskin med 2TB enhetlig minne! Målet er enkelt: å kjøre Kimi-K2.5 trillionparameter-modellen lokalt.

Hvorfor gjøre dette?

Ikke bare for å være kul, men også for dataprivacy og ekstrem lokal kontroll.

Kjerneverktøyet er EXO (GitHub: exo-explore/exo), som støtter RDMA (Remote Direct Memory Access) og kan fusjonere det enhetlige minnet fra 4 Mac-er til en stor videominnepool.

Maskinvareliste: 4 stk Mac Studio (M3 Ultra, 512GB minneversjon), totalt videominne på ca. 2TB, tilkobling via Thunderbolt 5 (120Gbps båndbredde), systemet trenger macOS Tahoe 26.2 eller nyere.

Trinn 1: Aktiver RDMA-støtte

Utfør på hver Mac:

  • Slå av Mac-en, gå inn i gjenopprettingsmodus (hold inne strømknappen, velg "Alternativer" > "Fortsett")
  • Åpne Terminal, kjør: bputil -a rdma
  • Start Mac-en på nytt
  • Bekreft: systemprofiler SPThunderboltDataType for å sjekke om RDMA er aktivert
Thunderbolt 5 gir 120Gbps båndbredde, perfekt for datatransfer.

Trinn 2: Installer EXO

macOS App-installasjon: Last ned EXO-version.dmg fra GitHub og installer. Åpne Dashboard for å legge til IP-adresser til andre Mac-er.

Kildekodeinstallasjon:

  • Installer Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Trinn 3: Fysisk tilkobling og topologi

Ikke bruk Wi-Fi for nettverksoppsett! Selv ikke Wi-Fi 7 fungerer. Trillionmodellenes inferens er ekstremt båndbreddefølsom. Vennligst bruk Thunderbolt 5-kabler, sett en Mac som hovednode (Master) og de andre tre som arbeidsnoder (Worker). Anbefalt stjernetopologi eller kjedeopplegg.

I EXO Dashboard bør du kunne se at alle 4 enheter er online, og den totale minnepoolen vises som 2048 GB.

Trinn 4: Last ned og kjør MLX fellesskapsversjon Kimi-K2.5

  • Last ned modellen:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Start inferensmotoren:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Kommandoforklaring:

    • --model: peker til modellkatalogen
    • --quant 4: bruker 4-bit kvantisering for å redusere minnebruk
    • --shards auto: EXO deler modellen automatisk
    • --engine mlx: bruker M3 Ultra sin 76-kjerners GPU og Neural Engine for inferens

    Endelig effekt og målinger

    Når terminalen viser Ready, har du din egen AI-superdatamaskin.

    Prefill-fase: Viftene på 4 Mac-er begynner å akselerere litt (takket være M3 Ultras energieffektivitet, vil de ikke ta av).

    Genereringsfase: Tokens dukker opp en etter en.

    Hastighet: Selv om det ikke kan måle seg med H100-klynger, kan token-genereringshastigheten takket være Thunderbolt 5s RDMA nå 17-28 tokens/s. Dette er helt interaktivt for en trillionparameter-modell!

    Oppsummering

    Denne løsningen er absolutt ikke billig, men den beviser at med Apple Silicon + innsatsen fra åpen kildekode-samfunnet, er fremtiden for desentralisert AI i ferd med å komme. Vi trenger ikke å sende dataene våre til sky-giganter; ved å bruke enhetene vi har, kan vi bygge kraftige private inferensklynger.

    Published in Technology

    You Might Also Like