Náklady pouze 300 000? Jak postavit osobní AI superpočítač s bilionovými parametry Kimi-K2.5 na 4 strojích Mac Studio s 512 GB
Náklady pouze 300 000? Jak postavit osobní AI superpočítač s bilionovými parametry Kimi-K2.5 na 4 strojích Mac Studio s 512 GB
V této éře velkých modelů máme všichni sen: provozovat lokálně model s bilionovými parametry, který se vyrovná úrovni GPT-5. Ale realita je krutá, modely s bilionovými parametry, i když jsou kvantizovány na 4 bity, potřebují obrovské množství grafické paměti. H100 a B200 jsou příliš drahé, co dělat, když si je nemůžeme dovolit?
Dnes vás JamePeng provede tím, jak pomocí 4 plně vybavených M3 Ultra Mac Studio, prostřednictvím EXO+MLX a Thunderbolt 5, vytvořit lokální AI superpočítač s 2TB sdílenou pamětí! Cíl je jediný: úspěšně spustit model Kimi-K2.5 s bilionovými parametry.
Proč se do toho pouštět?
Nejde jen o to být cool, ale také o ochranu dat a maximální místní kontrolu.
Hlavní zbraní je EXO (GitHub: exo-explore/exo), který podporuje RDMA (Remote Direct Memory Access) a dokáže sloučit sdílenou paměť 4 Maců do obrovského grafického paměťového poolu.
Seznam hardwaru: 4 Mac Studio (M3 Ultra, verze s 512 GB paměti), celková grafická paměť přibližně 2 TB, připojení pomocí Thunderbolt 5 (širokopásmová šířka 120 Gbps), systém potřebuje macOS Tahoe 26.2 nebo novější verzi.
Krok 1: Aktivace podpory RDMA
Na každém Macu proveďte:
- Vypněte Mac, přejděte do režimu obnovení (stiskněte tlačítko napájení, vyberte "Options" > "Continue")
- Otevřete Terminal a spusťte: bputil -a rdma
- Restartujte Mac
- Ověřte: systemprofiler SPThunderboltDataType zkontrolujte, zda je RDMA aktivováno
Krok 2: Instalace EXO
Instalace aplikace macOS: Stáhněte EXO-version.dmg z GitHubu a nainstalujte. Otevřete Dashboard a přidejte IP adresy ostatních Maců.
Instalace ze zdrojového kódu:
- Nainstalujte Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Krok 3: Fyzické připojení a topologie
Nepoužívejte Wi-Fi pro síť! Ani Wi-Fi 7 nebude stačit. Inferenční proces bilionového modelu je extrémně citlivý na šířku pásma. Použijte kabel Thunderbolt 5, přičemž jeden Mac bude hlavní uzel (Master) a ostatní tři budou pracovní uzly (Worker). Doporučuje se hvězdicová topologie nebo řetězové připojení.
V EXO Dashboard byste měli vidět, že všech 4 zařízení jsou online a celkový paměťový pool je zobrazen jako 2048 GB.
Krok 4: Stáhnout a spustit MLX komunitní verzi Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Spusťte inferenční engine:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Vysvětlení příkazu:
- --model: ukazuje na adresář modelu
- --quant 4: používá 4-bitovou kvantizaci pro snížení využití paměti
- --shards auto: EXO automaticky inteligentně rozděluje model
- --engine mlx: využívá 76jádrové GPU a Neural Engine M3 Ultra pro inferenci
Konečný efekt a měření
Když terminál zobrazuje Ready, máte svůj vlastní AI superpočítač.
Fáze předvyplnění (Prefill): Ventilátory 4 Maců začínají mírně zrychlovat (díky energetické účinnosti M3 Ultra, nebudou se přehřívat).
Fáze generování (Generation): Tokeny se objevují jeden za druhým.
Rychlost: I když se nemůže rovnat H100 clusteru, díky podpoře RDMA Thunderbolt 5 může rychlost generování tokenů dosáhnout 17-28 tokenů/s. To je pro model s bilionovými parametry zcela interaktivní!
Shrnutí
Tento systém rozhodně není levný, ale dokazuje, že díky úsilí Apple Silicon + open-source komunity se blíží decentralizovaná budoucnost AI. Nemusíme posílat data k obřím cloudovým poskytovatelům, s pomocí zařízení, která máme po ruce, můžeme vybudovat silné soukromé inferenční clustery.

