Náklady iba 300 000? Ako postaviť osobný AI superpočítač na 4 Mac Studio s 512 GB, lokálny inštalačný sprievodca pre model Kimi-K2.5 s biliónom parametrov

V tejto ére rýchleho rozvoja veľkých modelov máme všetci jeden sen: spustiť lokálne model s biliónom parametrov, ktorý sa vyrovná úrovni GPT-5. Ale realita je krutá, modely s biliónom parametrov, aj keď sú kvantizované na 4 bity, potrebujú obrovské množstvo grafickej pamäte. H100, B200 sú príliš drahé, čo robiť?

Dnes vás JamePeng vezme na cestu, ako pomocou 4 plne vybavených M3 Ultra Mac Studio, cez EXO+MLX a Thunderbolt 5, vytvoriť lokálny AI superpočítač s 2 TB zjednotenej pamäte! Cieľ je len jeden: spustiť model Kimi-K2.5 s biliónom parametrov lokálne.

Prečo sa do toho púšťať?

Nie len kvôli tomu, aby to vyzeralo cool, ale aj kvôli ochrane údajov a maximálnej kontrole nad lokálnymi zdrojmi.

Hlavným nástrojom je EXO (GitHub: exo-explore/exo), ktorý podporuje RDMA (Remote Direct Memory Access), a dokáže zlúčiť zjednotenú pamäť 4 Macov do obrovského pamäťového poolu.

Zoznam hardvéru: 4 Mac Studio (M3 Ultra, verzia s 512 GB pamäte), celková grafická pamäť približne 2 TB, pripojenie cez Thunderbolt 5 (120 Gbps šírka pásma), systém potrebuje macOS Tahoe 26.2 alebo novšiu verziu.

Krok 1: Aktivácia podpory RDMA

Na každom Macu vykonajte:

Vypnite Mac, prejdite do režimu obnovenia (stlačte a podržte tlačidlo napájania, vyberte "Možnosti" > "Pokračovať")
Otvorte Terminál a spustite: bputil -a rdma
Reštartujte Mac
Overte: systemprofiler SPThunderboltDataType skontrolujte aktiváciu RDMA

Thunderbolt 5 poskytuje 120 Gbps šírku pásma, perfektne podporuje prenos dát.

Krok 2: Inštalácia EXO

Inštalácia macOS aplikácie: Stiahnite EXO-version.dmg z GitHubu a nainštalujte a spustite. Otvorte Dashboard a pridajte IP adresy ostatných Macov.

Inštalácia zo zdrojového kódu:

Nainštalujte Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Krok 3: Fyzické pripojenie a topológia

Nepoužívajte Wi-Fi na vytvorenie siete! Ani Wi-Fi 7 nie je dostatočné. Inferencia modelu s biliónom parametrov je veľmi citlivá na šírku pásma. Použite káble Thunderbolt 5, jednu Mac ako hlavný uzol (Master) a ostatné tri ako pracovné uzly (Worker). Odporúčame hviezdicovú topológiu alebo reťazové pripojenie.

V EXO Dashboard by ste mali vidieť všetky 4 zariadenia online, celkový pamäťový pool by mal byť zobrazený ako 2048 GB.

Krok 4: Stiahnutie a spustenie MLX komunitnej verzie Kimi-K2.5

Stiahnite model:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Spustite inferenčný engine:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Vysvetlenie príkazu:

--model: smeruje na adresár modelu
--quant 4: použitie 4-bitovej kvantizácie na zníženie využitia pamäte
--shards auto: EXO automaticky inteligentne rozdelí model
--engine mlx: využíva 76-jadrové GPU a Neural Engine M3 Ultra na inferenciu

Konečný efekt a merania

Keď terminál zobrazuje Ready, máte svoj vlastný AI superpočítač.

Fáza predvyplnenia (Prefill): Ventilátory 4 Macov začínajú mierne zrýchľovať (vďaka energetickej účinnosti M3 Ultra, nebudú sa rozbiehať).

Fáza generovania (Generation): Tokeny sa objavujú jeden po druhom.

Rýchlosť: Aj keď sa nemôže rovnať klastru H100, vďaka RDMA podpore Thunderbolt 5 môže rýchlosť generovania tokenov dosiahnuť 17-28 tokenov/s. Pre model s biliónom parametrov je to úplne interaktívne!

Zhrnutie

Tento systém rozhodne nie je lacný, ale dokazuje, že s úsilím Apple Silicon + open-source komunity prichádza decentralizovaná budúcnosť AI. Nemusíme posielať údaje obrovským cloudovým spoločnostiam, pomocou zariadení, ktoré máme po ruke, môžeme vytvoriť silný súkromný inferenčný klaster.

Náklady iba 300 000? Ako postaviť osobný AI superpočítač na 4 Mac Studio s 512 GB, lokálny inštalačný sprievodca pre model Kimi-K2.5 s biliónom parametrov

Náklady iba 300 000? Ako postaviť osobný AI superpočítač na 4 Mac Studio s 512 GB, lokálny inštalačný sprievodca pre model Kimi-K2.5 s biliónom parametrov

Prečo sa do toho púšťať?

Krok 1: Aktivácia podpory RDMA

Krok 2: Inštalácia EXO

Krok 3: Fyzické pripojenie a topológia

Krok 4: Stiahnutie a spustenie MLX komunitnej verzie Kimi-K2.5

Konečný efekt a merania

Zhrnutie

You Might Also Like

Claude Code Buddy Úprava: Ako získať lesklého legendárneho domáceho maznáčika

Obsidian predstavil Defuddle, ktorý posunul Obsidian Web Clipper na novú úroveň

OpenAI náhle oznámila "trojv jednotě": sloučení prohlížeče + programování + ChatGPT, interně přiznává, že minulý rok šla špatnou cestou

2026, už sa viac nenúť "k disciplíne"! Urobte týchto 8 malých vecí a zdravie príde prirodzene

Tieto matky, ktoré sa snažia schudnúť, ale nedarí sa im, určite sa tu zasekli

AI Browser 24 hodinový stabilný prevádzkový sprievodca