Koster kun 300.000? Byg en personlig AI supercomputer med 4 stk. 512GB Mac Studio, guide til lokal implementering af trillion parameter Kimi-K2.5
Koster kun 300.000? Byg en personlig AI supercomputer med 4 stk. 512GB Mac Studio, guide til lokal implementering af trillion parameter Kimi-K2.5
I denne tid med store modeller har vi alle en drøm: At køre en trillion parameter model på niveau med GPT-5 lokalt. Men virkeligheden er brutal, selv en 4-bit kvantificeret model kræver enorme mængder videohukommelse. H100, B200 er for dyre, hvad skal man gøre?
I dag tager JamePeng os med til at bruge 4 fuldt udstyrede M3 Ultra Mac Studio, gennem EXO+MLX og Thunderbolt 5, og skaber en lokal AI supercomputer med 2TB samlet hukommelse! Målet er enkelt: At køre Kimi-K2.5 trillion parameter stor model lokalt.
Hvorfor gøre det på denne måde?
Ikke kun for sjov, men også for dataprivacy og ekstrem lokal kontrol.
Det centrale værktøj er EXO (GitHub: exo-explore/exo), som understøtter RDMA (Remote Direct Memory Access), der kan fusionere den samlede hukommelse fra 4 Mac'er til en stor videohukommelsespulje.
Hardwareliste: 4 Mac Studio (M3 Ultra, 512GB hukommelsesversion), samlet videohukommelse på ca. 2TB, tilslutning via Thunderbolt 5 (120Gbps båndbredde), systemet skal være macOS Tahoe 26.2 eller nyere.
Trin 1: Aktivér RDMA understøttelse
Udfør på hver Mac:
- Sluk Mac'en, gå ind i gendannelsestilstand (hold tænd/sluk-knappen nede, vælg "Options" > "Continue")
- Åbn Terminal, kør: bputil -a rdma
- Genstart Mac'en
- Bekræft: systemprofiler SPThunderboltDataType for at tjekke RDMA aktiveret
Trin 2: Installer EXO
macOS App installation: Download EXO-version.dmg fra GitHub, installer og kør. Åbn Dashboard for at tilføje IP-adresser på andre Mac'er.
Kildekode installation:
- Installer Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Trin 3: Fysisk forbindelse og topologi
Brug ikke Wi-Fi til netværk! Selv Wi-Fi 7 er ikke tilstrækkeligt. Trillion model inference er ekstremt båndbreddefølsom. Brug venligst Thunderbolt 5 kabler, og gør en Mac til hovednode (Master), de andre tre som arbejdsenheder (Worker). Anbefalet stjernetopologi eller kædeforbindelse.
I EXO Dashboard bør du kunne se, at alle 4 enheder er online, og den samlede hukommelsespulje vises som 2048 GB.
Trin 4: Download og kør MLX community version Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Start inference motor:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Kommando forklaring:
- --model: peger på modelmappen
- --quant 4: bruger 4-bit kvantificering for at reducere hukommelsesforbruget
- --shards auto: EXO opdeler automatisk modellen intelligent
- --engine mlx: kalder M3 Ultra's 76-core GPU og Neural Engine til inference
Slutresultat og målinger
Når terminalen viser Ready, har du din egen AI supercomputer.
Forudfyldningsfase: 4 Mac'ers blæsere begynder at accelerere let (takket være M3 Ultra's energieffektivitet, vil de ikke flyve).
Genereringsfase: Tokens springer ud en efter en.
Hastighed: Selvom det ikke kan konkurrere med H100 klynger, kan token genereringshastigheden nå 17-28 tokens/s takket være Thunderbolt 5's RDMA støtte. Dette er helt interaktivt for en trillion parameter model!
Konklusion
Denne løsning er bestemt ikke billig, men den beviser, at med Apple Silicon + open source samfundets indsats, er fremtiden for decentraliseret AI ved at komme. Vi behøver ikke at sende data til cloud-giganter, ved at bruge de enheder vi har ved hånden, kan vi opbygge kraftfulde private inference klynger.

