Koster kun 300.000? Bygg en personlig AI-superdatamaskin med 4 stk 512GB Mac Studio, lokal distribusjonsguide for trillionparameter Kimi-K2.5

I denne tiden med store modeller har vi alle en drøm: å kjøre en trillionparameter-modell på nivå med GPT-5 lokalt. Men virkeligheten er brutal; trillionparameter-modeller krever enorme mengder videominne, selv med 4-bit kvantisering. H100 og B200 er for dyre, hva skal man gjøre?

I dag tar JamePeng oss med for å bruke 4 fullt utstyrte M3 Ultra Mac Studio, gjennom EXO+MLX og Thunderbolt 5, for å lage en lokal AI-superdatamaskin med 2TB enhetlig minne! Målet er enkelt: å kjøre Kimi-K2.5 trillionparameter-modellen lokalt.

Hvorfor gjøre dette?

Ikke bare for å være kul, men også for dataprivacy og ekstrem lokal kontroll.

Kjerneverktøyet er EXO (GitHub: exo-explore/exo), som støtter RDMA (Remote Direct Memory Access) og kan fusjonere det enhetlige minnet fra 4 Mac-er til en stor videominnepool.

Maskinvareliste: 4 stk Mac Studio (M3 Ultra, 512GB minneversjon), totalt videominne på ca. 2TB, tilkobling via Thunderbolt 5 (120Gbps båndbredde), systemet trenger macOS Tahoe 26.2 eller nyere.

Trinn 1: Aktiver RDMA-støtte

Utfør på hver Mac:

Slå av Mac-en, gå inn i gjenopprettingsmodus (hold inne strømknappen, velg "Alternativer" > "Fortsett")
Åpne Terminal, kjør: bputil -a rdma
Start Mac-en på nytt
Bekreft: systemprofiler SPThunderboltDataType for å sjekke om RDMA er aktivert

Thunderbolt 5 gir 120Gbps båndbredde, perfekt for datatransfer.

Trinn 2: Installer EXO

macOS App-installasjon: Last ned EXO-version.dmg fra GitHub og installer. Åpne Dashboard for å legge til IP-adresser til andre Mac-er.

Kildekodeinstallasjon:

Installer Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Trinn 3: Fysisk tilkobling og topologi

Ikke bruk Wi-Fi for nettverksoppsett! Selv ikke Wi-Fi 7 fungerer. Trillionmodellenes inferens er ekstremt båndbreddefølsom. Vennligst bruk Thunderbolt 5-kabler, sett en Mac som hovednode (Master) og de andre tre som arbeidsnoder (Worker). Anbefalt stjernetopologi eller kjedeopplegg.

I EXO Dashboard bør du kunne se at alle 4 enheter er online, og den totale minnepoolen vises som 2048 GB.

Trinn 4: Last ned og kjør MLX fellesskapsversjon Kimi-K2.5

Last ned modellen:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Start inferensmotoren:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Kommandoforklaring:

--model: peker til modellkatalogen
--quant 4: bruker 4-bit kvantisering for å redusere minnebruk
--shards auto: EXO deler modellen automatisk
--engine mlx: bruker M3 Ultra sin 76-kjerners GPU og Neural Engine for inferens

Endelig effekt og målinger

Når terminalen viser Ready, har du din egen AI-superdatamaskin.

Prefill-fase: Viftene på 4 Mac-er begynner å akselerere litt (takket være M3 Ultras energieffektivitet, vil de ikke ta av).

Genereringsfase: Tokens dukker opp en etter en.

Hastighet: Selv om det ikke kan måle seg med H100-klynger, kan token-genereringshastigheten takket være Thunderbolt 5s RDMA nå 17-28 tokens/s. Dette er helt interaktivt for en trillionparameter-modell!

Oppsummering

Denne løsningen er absolutt ikke billig, men den beviser at med Apple Silicon + innsatsen fra åpen kildekode-samfunnet, er fremtiden for desentralisert AI i ferd med å komme. Vi trenger ikke å sende dataene våre til sky-giganter; ved å bruke enhetene vi har, kan vi bygge kraftige private inferensklynger.

Koster kun 300.000? Bygg en personlig AI-superdatamaskin med 4 stk 512GB Mac Studio, lokal distribusjonsguide for trillionparameter Kimi-K2.5

Koster kun 300.000? Bygg en personlig AI-superdatamaskin med 4 stk 512GB Mac Studio, lokal distribusjonsguide for trillionparameter Kimi-K2.5

Hvorfor gjøre dette?

Trinn 1: Aktiver RDMA-støtte

Trinn 2: Installer EXO

Trinn 3: Fysisk tilkobling og topologi

Trinn 4: Last ned og kjør MLX fellesskapsversjon Kimi-K2.5

Endelig effekt og målinger

Oppsummering

You Might Also Like

Claude Code Buddy Modifikasjonsguide: Hvordan få glitrende legendariske kjæledyr

Obsidian har lansert Defuddle, og hevet Obsidian Web Clipper til nye høyder

OpenAI plutselig kunngjør "tre-i-ett": sammenslåing av nettleser + programmering + ChatGPT, internt innrømmer de at de har gått feil vei det siste året

2026, ikke tving deg selv til "selvdisiplin"! Gjør disse 8 små tingene, så kommer helsen naturlig

Mødre som sliter med å gå ned i vekt, er absolutt fanget her

AI Browser 24-timers stabil drift guide