Koster kun 300.000? Byg en personlig AI supercomputer med 4 stk. 512GB Mac Studio, guide til lokal implementering af trillion parameter Kimi-K2.5

I denne tid med store modeller har vi alle en drøm: At køre en trillion parameter model på niveau med GPT-5 lokalt. Men virkeligheden er brutal, selv en 4-bit kvantificeret model kræver enorme mængder videohukommelse. H100, B200 er for dyre, hvad skal man gøre?

I dag tager JamePeng os med til at bruge 4 fuldt udstyrede M3 Ultra Mac Studio, gennem EXO+MLX og Thunderbolt 5, og skaber en lokal AI supercomputer med 2TB samlet hukommelse! Målet er enkelt: At køre Kimi-K2.5 trillion parameter stor model lokalt.

Hvorfor gøre det på denne måde?

Ikke kun for sjov, men også for dataprivacy og ekstrem lokal kontrol.

Det centrale værktøj er EXO (GitHub: exo-explore/exo), som understøtter RDMA (Remote Direct Memory Access), der kan fusionere den samlede hukommelse fra 4 Mac'er til en stor videohukommelsespulje.

Hardwareliste: 4 Mac Studio (M3 Ultra, 512GB hukommelsesversion), samlet videohukommelse på ca. 2TB, tilslutning via Thunderbolt 5 (120Gbps båndbredde), systemet skal være macOS Tahoe 26.2 eller nyere.

Trin 1: Aktivér RDMA understøttelse

Udfør på hver Mac:

Sluk Mac'en, gå ind i gendannelsestilstand (hold tænd/sluk-knappen nede, vælg "Options" > "Continue")
Åbn Terminal, kør: bputil -a rdma
Genstart Mac'en
Bekræft: systemprofiler SPThunderboltDataType for at tjekke RDMA aktiveret

Thunderbolt 5 tilbyder 120Gbps båndbredde, perfekt til datatransmission.

Trin 2: Installer EXO

macOS App installation: Download EXO-version.dmg fra GitHub, installer og kør. Åbn Dashboard for at tilføje IP-adresser på andre Mac'er.

Kildekode installation:

Installer Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Trin 3: Fysisk forbindelse og topologi

Brug ikke Wi-Fi til netværk! Selv Wi-Fi 7 er ikke tilstrækkeligt. Trillion model inference er ekstremt båndbreddefølsom. Brug venligst Thunderbolt 5 kabler, og gør en Mac til hovednode (Master), de andre tre som arbejdsenheder (Worker). Anbefalet stjernetopologi eller kædeforbindelse.

I EXO Dashboard bør du kunne se, at alle 4 enheder er online, og den samlede hukommelsespulje vises som 2048 GB.

Trin 4: Download og kør MLX community version Kimi-K2.5

Download modellen:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Start inference motor:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Kommando forklaring:

--model: peger på modelmappen
--quant 4: bruger 4-bit kvantificering for at reducere hukommelsesforbruget
--shards auto: EXO opdeler automatisk modellen intelligent
--engine mlx: kalder M3 Ultra's 76-core GPU og Neural Engine til inference

Slutresultat og målinger

Når terminalen viser Ready, har du din egen AI supercomputer.

Forudfyldningsfase: 4 Mac'ers blæsere begynder at accelerere let (takket være M3 Ultra's energieffektivitet, vil de ikke flyve).

Genereringsfase: Tokens springer ud en efter en.

Hastighed: Selvom det ikke kan konkurrere med H100 klynger, kan token genereringshastigheden nå 17-28 tokens/s takket være Thunderbolt 5's RDMA støtte. Dette er helt interaktivt for en trillion parameter model!

Konklusion

Denne løsning er bestemt ikke billig, men den beviser, at med Apple Silicon + open source samfundets indsats, er fremtiden for decentraliseret AI ved at komme. Vi behøver ikke at sende data til cloud-giganter, ved at bruge de enheder vi har ved hånden, kan vi opbygge kraftfulde private inference klynger.

Koster kun 300.000? Byg en personlig AI supercomputer med 4 stk. 512GB Mac Studio, guide til lokal implementering af trillion parameter Kimi-K2.5

Koster kun 300.000? Byg en personlig AI supercomputer med 4 stk. 512GB Mac Studio, guide til lokal implementering af trillion parameter Kimi-K2.5

Hvorfor gøre det på denne måde?

Trin 1: Aktivér RDMA understøttelse

Trin 2: Installer EXO

Trin 3: Fysisk forbindelse og topologi

Trin 4: Download og kør MLX community version Kimi-K2.5

Slutresultat og målinger

Konklusion

You Might Also Like

Claude Code Buddy ændringsvejledning: Hvordan man får glitrende legendariske kæledyr

Obsidian har lanceret Defuddle, som tager Obsidian Web Clipper til nye højder

OpenAI pludselig annoncerer "tre-i-en": browser + programmering + ChatGPT fusionerer, internt erkender de, at de har taget fejl det forgangne år

2026, ikke længere tvinge sig selv til 'selvdisciplin'! Gør disse 8 små ting, så kommer sundheden naturligt

De mødre, der kæmper for at tabe sig, men ikke kan, falder bestemt her

AI Browser 24 timers stabil drift guide