Náklady iba 300 000? Ako postaviť osobný AI superpočítač na 4 Mac Studio s 512 GB, lokálny inštalačný sprievodca pre model Kimi-K2.5 s biliónom parametrov
Náklady iba 300 000? Ako postaviť osobný AI superpočítač na 4 Mac Studio s 512 GB, lokálny inštalačný sprievodca pre model Kimi-K2.5 s biliónom parametrov
V tejto ére rýchleho rozvoja veľkých modelov máme všetci jeden sen: spustiť lokálne model s biliónom parametrov, ktorý sa vyrovná úrovni GPT-5. Ale realita je krutá, modely s biliónom parametrov, aj keď sú kvantizované na 4 bity, potrebujú obrovské množstvo grafickej pamäte. H100, B200 sú príliš drahé, čo robiť?
Dnes vás JamePeng vezme na cestu, ako pomocou 4 plne vybavených M3 Ultra Mac Studio, cez EXO+MLX a Thunderbolt 5, vytvoriť lokálny AI superpočítač s 2 TB zjednotenej pamäte! Cieľ je len jeden: spustiť model Kimi-K2.5 s biliónom parametrov lokálne.
Prečo sa do toho púšťať?
Nie len kvôli tomu, aby to vyzeralo cool, ale aj kvôli ochrane údajov a maximálnej kontrole nad lokálnymi zdrojmi.
Hlavným nástrojom je EXO (GitHub: exo-explore/exo), ktorý podporuje RDMA (Remote Direct Memory Access), a dokáže zlúčiť zjednotenú pamäť 4 Macov do obrovského pamäťového poolu.
Zoznam hardvéru: 4 Mac Studio (M3 Ultra, verzia s 512 GB pamäte), celková grafická pamäť približne 2 TB, pripojenie cez Thunderbolt 5 (120 Gbps šírka pásma), systém potrebuje macOS Tahoe 26.2 alebo novšiu verziu.
Krok 1: Aktivácia podpory RDMA
Na každom Macu vykonajte:
- Vypnite Mac, prejdite do režimu obnovenia (stlačte a podržte tlačidlo napájania, vyberte "Možnosti" > "Pokračovať")
- Otvorte Terminál a spustite: bputil -a rdma
- Reštartujte Mac
- Overte: systemprofiler SPThunderboltDataType skontrolujte aktiváciu RDMA
Krok 2: Inštalácia EXO
Inštalácia macOS aplikácie: Stiahnite EXO-version.dmg z GitHubu a nainštalujte a spustite. Otvorte Dashboard a pridajte IP adresy ostatných Macov.
Inštalácia zo zdrojového kódu:
- Nainštalujte Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Krok 3: Fyzické pripojenie a topológia
Nepoužívajte Wi-Fi na vytvorenie siete! Ani Wi-Fi 7 nie je dostatočné. Inferencia modelu s biliónom parametrov je veľmi citlivá na šírku pásma. Použite káble Thunderbolt 5, jednu Mac ako hlavný uzol (Master) a ostatné tri ako pracovné uzly (Worker). Odporúčame hviezdicovú topológiu alebo reťazové pripojenie.
V EXO Dashboard by ste mali vidieť všetky 4 zariadenia online, celkový pamäťový pool by mal byť zobrazený ako 2048 GB.
Krok 4: Stiahnutie a spustenie MLX komunitnej verzie Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Spustite inferenčný engine:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Vysvetlenie príkazu:
- --model: smeruje na adresár modelu
- --quant 4: použitie 4-bitovej kvantizácie na zníženie využitia pamäte
- --shards auto: EXO automaticky inteligentne rozdelí model
- --engine mlx: využíva 76-jadrové GPU a Neural Engine M3 Ultra na inferenciu
Konečný efekt a merania
Keď terminál zobrazuje Ready, máte svoj vlastný AI superpočítač.
Fáza predvyplnenia (Prefill): Ventilátory 4 Macov začínajú mierne zrýchľovať (vďaka energetickej účinnosti M3 Ultra, nebudú sa rozbiehať).
Fáza generovania (Generation): Tokeny sa objavujú jeden po druhom.
Rýchlosť: Aj keď sa nemôže rovnať klastru H100, vďaka RDMA podpore Thunderbolt 5 môže rýchlosť generovania tokenov dosiahnuť 17-28 tokenov/s. Pre model s biliónom parametrov je to úplne interaktívne!
Zhrnutie
Tento systém rozhodne nie je lacný, ale dokazuje, že s úsilím Apple Silicon + open-source komunity prichádza decentralizovaná budúcnosť AI. Nemusíme posielať údaje obrovským cloudovým spoločnostiam, pomocou zariadení, ktoré máme po ruke, môžeme vytvoriť silný súkromný inferenčný klaster.

