Stroški le 300.000? Kako zgraditi osebni AI superračunalnik na 4 Mac Studio z 512GB, lokalna namestitev modela Kimi-K2.5 z bilijonom parametrov

V tem času hitrega razvoja velikih modelov imamo vsi sanje: lokalno zagnati model z bilijonom parametrov, ki se lahko primerja z nivojem GPT-5. A realnost je kruta, modeli z bilijonom parametrov, tudi pri 4-bitni kvantizaciji, zahtevajo ogromno grafične pomnilnika. H100, B200 sta predraga, kaj storiti?

Danes vas JamePeng popelje, kako z 4 popolnoma opremljenimi M3 Ultra Mac Studio, preko EXO+MLX in Thunderbolt 5, ustvariti lokalni AI superračunalnik z 2TB enotnega pomnilnika! Cilj je le en: lokalno zagnati Kimi-K2.5 model z bilijonom parametrov.

Zakaj se truditi?

Ne le zaradi kul videza, temveč tudi zaradi varnosti podatkov in ekstremne lokalne kontrole.

Osnovno orožje je EXO (GitHub: exo-explore/exo), ki podpira RDMA (oddaljeni neposredni dostop do pomnilnika) in lahko združi enotni pomnilnik 4 Mac-ov v ogromno pomnilniško rezervoar.

Seznam strojne opreme: 4 Mac Studio (M3 Ultra, 512GB različica), skupni grafični pomnilnik približno 2TB, povezava preko Thunderbolt 5 (120Gbps pasovna širina), sistem potrebuje macOS Tahoe 26.2 ali novejšo različico.

Korak 1: Omogočite podporo RDMA

Na vsakem Mac-u:

Izklopite Mac, vstopite v način obnovitve (držite gumb za vklop, izberite "Options" > "Continue")
Odprite Terminal in zaženite: bputil -a rdma
Ponovno zaženite Mac
Preverite: systemprofiler SPThunderboltDataType za preverjanje, ali je RDMA omogočen

Thunderbolt 5 nudi 120Gbps pasovno širino, kar popolnoma podpira prenos podatkov.

Korak 2: Namestite EXO

Namestitev macOS aplikacije: prenesite EXO-version.dmg z GitHub-a in ga namestite. Odprite Dashboard in dodajte IP drugih Mac-ov.

Namestitev iz izvorne kode:

Namestite Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Korak 3: Fizična povezava in topologija

Ne uporabljajte Wi-Fi za omrežno povezovanje! Tudi Wi-Fi 7 ne bo deloval. Inferenca modela z bilijonom parametrov je izjemno občutljiva na pasovno širino. Uporabite Thunderbolt 5 kable, ena Mac naprava naj bo glavni vozlišče (Master), ostale tri pa delovna vozlišča (Worker). Priporočamo zvezdasto topologijo ali verižne povezave.

V EXO Dashboard-u bi morali videti, da so vse 4 naprave povezane, skupni pomnilniški rezervoar pa prikazuje 2048 GB.

Korak 4: Prenesite in zaženite MLX različico Kimi-K2.5

Prenesite model:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Zaženite inferenčni motor:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Razlaga ukaza:

--model: usmerja na imenik modela
--quant 4: uporabi 4-bitno kvantizacijo za zmanjšanje porabe pomnilnika
--shards auto: EXO samodejno inteligentno razdeli model
--engine mlx: uporabi 76-jedrni GPU in Neural Engine M3 Ultra za inferenco

Končni rezultat in meritev

Ko terminal prikaže Ready, imate svoj AI superračunalnik.

Faza predpolnjenja (Prefill): ventilatorji 4 Mac-ov se začnejo rahlo pospeševati (zahvaljujoč energetski učinkovitosti M3 Ultra, ne bodo se pregreli).

Faza generiranja (Generation): Tokeni se začnejo pojavljati enega za drugim.

Hitrost: Čeprav ne more doseči hitrosti H100 gruče, zahvaljujoč Thunderbolt 5 RDMA podpori, lahko hitrost generiranja tokenov doseže 17-28 tokenov/s. To je povsem interaktivno za model z bilijonom parametrov!

Povzetek

Ta rešitev zagotovo ni poceni, a dokazuje, da z naporom Apple Silicon + odprtokodne skupnosti prihodnost decentralizirane AI prihaja. Ne potrebujemo pošiljati podatkov velikim oblakom, z uporabo naprav, ki jih imamo na voljo, lahko zgradimo močne zasebne inferenčne gruče.

Stroški le 300.000? Kako zgraditi osebni AI superračunalnik na 4 Mac Studio z 512GB, lokalna namestitev modela Kimi-K2.5 z bilijonom parametrov

Stroški le 300.000? Kako zgraditi osebni AI superračunalnik na 4 Mac Studio z 512GB, lokalna namestitev modela Kimi-K2.5 z bilijonom parametrov

Zakaj se truditi?

Korak 1: Omogočite podporo RDMA

Korak 2: Namestite EXO

Korak 3: Fizična povezava in topologija

Korak 4: Prenesite in zaženite MLX različico Kimi-K2.5

Končni rezultat in meritev

Povzetek

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian je predstavil Defuddle, ki je Obsidian Web Clipper dvignil na novo raven

OpenAI nenadoma napoveduje "tri v enem": združitev brskalnika + programiranja + ChatGPT, notranje priznanje, da so v preteklem letu zgrešili pot

2026, ne silite se več v 'discipliniranost'! Poskrbite za teh 8 malenkosti, zdravje bo prišlo naravno

Tiste mame, ki se trudijo shujšati, a jim ne uspe, so zagotovo tukaj naletele na težave

AI Browser 24-urna stabilna delovna navodila