Stroški le 300.000? Kako zgraditi osebni AI superračunalnik na 4 Mac Studio z 512GB, lokalna namestitev modela Kimi-K2.5 z bilijonom parametrov
Stroški le 300.000? Kako zgraditi osebni AI superračunalnik na 4 Mac Studio z 512GB, lokalna namestitev modela Kimi-K2.5 z bilijonom parametrov
V tem času hitrega razvoja velikih modelov imamo vsi sanje: lokalno zagnati model z bilijonom parametrov, ki se lahko primerja z nivojem GPT-5. A realnost je kruta, modeli z bilijonom parametrov, tudi pri 4-bitni kvantizaciji, zahtevajo ogromno grafične pomnilnika. H100, B200 sta predraga, kaj storiti?
Danes vas JamePeng popelje, kako z 4 popolnoma opremljenimi M3 Ultra Mac Studio, preko EXO+MLX in Thunderbolt 5, ustvariti lokalni AI superračunalnik z 2TB enotnega pomnilnika! Cilj je le en: lokalno zagnati Kimi-K2.5 model z bilijonom parametrov.
Zakaj se truditi?
Ne le zaradi kul videza, temveč tudi zaradi varnosti podatkov in ekstremne lokalne kontrole.
Osnovno orožje je EXO (GitHub: exo-explore/exo), ki podpira RDMA (oddaljeni neposredni dostop do pomnilnika) in lahko združi enotni pomnilnik 4 Mac-ov v ogromno pomnilniško rezervoar.
Seznam strojne opreme: 4 Mac Studio (M3 Ultra, 512GB različica), skupni grafični pomnilnik približno 2TB, povezava preko Thunderbolt 5 (120Gbps pasovna širina), sistem potrebuje macOS Tahoe 26.2 ali novejšo različico.
Korak 1: Omogočite podporo RDMA
Na vsakem Mac-u:
- Izklopite Mac, vstopite v način obnovitve (držite gumb za vklop, izberite "Options" > "Continue")
- Odprite Terminal in zaženite: bputil -a rdma
- Ponovno zaženite Mac
- Preverite: systemprofiler SPThunderboltDataType za preverjanje, ali je RDMA omogočen
Korak 2: Namestite EXO
Namestitev macOS aplikacije: prenesite EXO-version.dmg z GitHub-a in ga namestite. Odprite Dashboard in dodajte IP drugih Mac-ov.
Namestitev iz izvorne kode:
- Namestite Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Korak 3: Fizična povezava in topologija
Ne uporabljajte Wi-Fi za omrežno povezovanje! Tudi Wi-Fi 7 ne bo deloval. Inferenca modela z bilijonom parametrov je izjemno občutljiva na pasovno širino. Uporabite Thunderbolt 5 kable, ena Mac naprava naj bo glavni vozlišče (Master), ostale tri pa delovna vozlišča (Worker). Priporočamo zvezdasto topologijo ali verižne povezave.
V EXO Dashboard-u bi morali videti, da so vse 4 naprave povezane, skupni pomnilniški rezervoar pa prikazuje 2048 GB.
Korak 4: Prenesite in zaženite MLX različico Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Zaženite inferenčni motor:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Razlaga ukaza:
- --model: usmerja na imenik modela
- --quant 4: uporabi 4-bitno kvantizacijo za zmanjšanje porabe pomnilnika
- --shards auto: EXO samodejno inteligentno razdeli model
- --engine mlx: uporabi 76-jedrni GPU in Neural Engine M3 Ultra za inferenco
Končni rezultat in meritev
Ko terminal prikaže Ready, imate svoj AI superračunalnik.
Faza predpolnjenja (Prefill): ventilatorji 4 Mac-ov se začnejo rahlo pospeševati (zahvaljujoč energetski učinkovitosti M3 Ultra, ne bodo se pregreli).
Faza generiranja (Generation): Tokeni se začnejo pojavljati enega za drugim.
Hitrost: Čeprav ne more doseči hitrosti H100 gruče, zahvaljujoč Thunderbolt 5 RDMA podpori, lahko hitrost generiranja tokenov doseže 17-28 tokenov/s. To je povsem interaktivno za model z bilijonom parametrov!
Povzetek
Ta rešitev zagotovo ni poceni, a dokazuje, da z naporom Apple Silicon + odprtokodne skupnosti prihodnost decentralizirane AI prihaja. Ne potrebujemo pošiljati podatkov velikim oblakom, z uporabo naprav, ki jih imamo na voljo, lahko zgradimo močne zasebne inferenčne gruče.

