Koster kun 300.000? Bygg en personlig AI-superdatamaskin med 4 stk 512GB Mac Studio, lokal distribusjonsguide for trillionparameter Kimi-K2.5
Koster kun 300.000? Bygg en personlig AI-superdatamaskin med 4 stk 512GB Mac Studio, lokal distribusjonsguide for trillionparameter Kimi-K2.5
I denne tiden med store modeller har vi alle en drøm: å kjøre en trillionparameter-modell på nivå med GPT-5 lokalt. Men virkeligheten er brutal; trillionparameter-modeller krever enorme mengder videominne, selv med 4-bit kvantisering. H100 og B200 er for dyre, hva skal man gjøre?
I dag tar JamePeng oss med for å bruke 4 fullt utstyrte M3 Ultra Mac Studio, gjennom EXO+MLX og Thunderbolt 5, for å lage en lokal AI-superdatamaskin med 2TB enhetlig minne! Målet er enkelt: å kjøre Kimi-K2.5 trillionparameter-modellen lokalt.
Hvorfor gjøre dette?
Ikke bare for å være kul, men også for dataprivacy og ekstrem lokal kontroll.
Kjerneverktøyet er EXO (GitHub: exo-explore/exo), som støtter RDMA (Remote Direct Memory Access) og kan fusjonere det enhetlige minnet fra 4 Mac-er til en stor videominnepool.
Maskinvareliste: 4 stk Mac Studio (M3 Ultra, 512GB minneversjon), totalt videominne på ca. 2TB, tilkobling via Thunderbolt 5 (120Gbps båndbredde), systemet trenger macOS Tahoe 26.2 eller nyere.
Trinn 1: Aktiver RDMA-støtte
Utfør på hver Mac:
- Slå av Mac-en, gå inn i gjenopprettingsmodus (hold inne strømknappen, velg "Alternativer" > "Fortsett")
- Åpne Terminal, kjør: bputil -a rdma
- Start Mac-en på nytt
- Bekreft: systemprofiler SPThunderboltDataType for å sjekke om RDMA er aktivert
Trinn 2: Installer EXO
macOS App-installasjon: Last ned EXO-version.dmg fra GitHub og installer. Åpne Dashboard for å legge til IP-adresser til andre Mac-er.
Kildekodeinstallasjon:
- Installer Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Trinn 3: Fysisk tilkobling og topologi
Ikke bruk Wi-Fi for nettverksoppsett! Selv ikke Wi-Fi 7 fungerer. Trillionmodellenes inferens er ekstremt båndbreddefølsom. Vennligst bruk Thunderbolt 5-kabler, sett en Mac som hovednode (Master) og de andre tre som arbeidsnoder (Worker). Anbefalt stjernetopologi eller kjedeopplegg.
I EXO Dashboard bør du kunne se at alle 4 enheter er online, og den totale minnepoolen vises som 2048 GB.
Trinn 4: Last ned og kjør MLX fellesskapsversjon Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Start inferensmotoren:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Kommandoforklaring:
- --model: peker til modellkatalogen
- --quant 4: bruker 4-bit kvantisering for å redusere minnebruk
- --shards auto: EXO deler modellen automatisk
- --engine mlx: bruker M3 Ultra sin 76-kjerners GPU og Neural Engine for inferens
Endelig effekt og målinger
Når terminalen viser Ready, har du din egen AI-superdatamaskin.
Prefill-fase: Viftene på 4 Mac-er begynner å akselerere litt (takket være M3 Ultras energieffektivitet, vil de ikke ta av).
Genereringsfase: Tokens dukker opp en etter en.
Hastighet: Selv om det ikke kan måle seg med H100-klynger, kan token-genereringshastigheten takket være Thunderbolt 5s RDMA nå 17-28 tokens/s. Dette er helt interaktivt for en trillionparameter-modell!
Oppsummering
Denne løsningen er absolutt ikke billig, men den beviser at med Apple Silicon + innsatsen fra åpen kildekode-samfunnet, er fremtiden for desentralisert AI i ferd med å komme. Vi trenger ikke å sende dataene våre til sky-giganter; ved å bruke enhetene vi har, kan vi bygge kraftige private inferensklynger.

