Náklady pouze 300 000? Jak postavit osobní AI superpočítač s bilionovými parametry Kimi-K2.5 na 4 strojích Mac Studio s 512 GB

V této éře velkých modelů máme všichni sen: provozovat lokálně model s bilionovými parametry, který se vyrovná úrovni GPT-5. Ale realita je krutá, modely s bilionovými parametry, i když jsou kvantizovány na 4 bity, potřebují obrovské množství grafické paměti. H100 a B200 jsou příliš drahé, co dělat, když si je nemůžeme dovolit?

Dnes vás JamePeng provede tím, jak pomocí 4 plně vybavených M3 Ultra Mac Studio, prostřednictvím EXO+MLX a Thunderbolt 5, vytvořit lokální AI superpočítač s 2TB sdílenou pamětí! Cíl je jediný: úspěšně spustit model Kimi-K2.5 s bilionovými parametry.

Proč se do toho pouštět?

Nejde jen o to být cool, ale také o ochranu dat a maximální místní kontrolu.

Hlavní zbraní je EXO (GitHub: exo-explore/exo), který podporuje RDMA (Remote Direct Memory Access) a dokáže sloučit sdílenou paměť 4 Maců do obrovského grafického paměťového poolu.

Seznam hardwaru: 4 Mac Studio (M3 Ultra, verze s 512 GB paměti), celková grafická paměť přibližně 2 TB, připojení pomocí Thunderbolt 5 (širokopásmová šířka 120 Gbps), systém potřebuje macOS Tahoe 26.2 nebo novější verzi.

Krok 1: Aktivace podpory RDMA

Na každém Macu proveďte:

Vypněte Mac, přejděte do režimu obnovení (stiskněte tlačítko napájení, vyberte "Options" > "Continue")
Otevřete Terminal a spusťte: bputil -a rdma
Restartujte Mac
Ověřte: systemprofiler SPThunderboltDataType zkontrolujte, zda je RDMA aktivováno

Thunderbolt 5 poskytuje šířku pásma 120 Gbps, což perfektně podporuje přenos dat.

Krok 2: Instalace EXO

Instalace aplikace macOS: Stáhněte EXO-version.dmg z GitHubu a nainstalujte. Otevřete Dashboard a přidejte IP adresy ostatních Maců.

Instalace ze zdrojového kódu:

Nainstalujte Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Krok 3: Fyzické připojení a topologie

Nepoužívejte Wi-Fi pro síť! Ani Wi-Fi 7 nebude stačit. Inferenční proces bilionového modelu je extrémně citlivý na šířku pásma. Použijte kabel Thunderbolt 5, přičemž jeden Mac bude hlavní uzel (Master) a ostatní tři budou pracovní uzly (Worker). Doporučuje se hvězdicová topologie nebo řetězové připojení.

V EXO Dashboard byste měli vidět, že všech 4 zařízení jsou online a celkový paměťový pool je zobrazen jako 2048 GB.

Krok 4: Stáhnout a spustit MLX komunitní verzi Kimi-K2.5

Stáhněte model:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Spusťte inferenční engine:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Vysvětlení příkazu:

--model: ukazuje na adresář modelu
--quant 4: používá 4-bitovou kvantizaci pro snížení využití paměti
--shards auto: EXO automaticky inteligentně rozděluje model
--engine mlx: využívá 76jádrové GPU a Neural Engine M3 Ultra pro inferenci

Konečný efekt a měření

Když terminál zobrazuje Ready, máte svůj vlastní AI superpočítač.

Fáze předvyplnění (Prefill): Ventilátory 4 Maců začínají mírně zrychlovat (díky energetické účinnosti M3 Ultra, nebudou se přehřívat).

Fáze generování (Generation): Tokeny se objevují jeden za druhým.

Rychlost: I když se nemůže rovnat H100 clusteru, díky podpoře RDMA Thunderbolt 5 může rychlost generování tokenů dosáhnout 17-28 tokenů/s. To je pro model s bilionovými parametry zcela interaktivní!

Shrnutí

Tento systém rozhodně není levný, ale dokazuje, že díky úsilí Apple Silicon + open-source komunity se blíží decentralizovaná budoucnost AI. Nemusíme posílat data k obřím cloudovým poskytovatelům, s pomocí zařízení, která máme po ruce, můžeme vybudovat silné soukromé inferenční clustery.

Náklady pouze 300 000? Jak postavit osobní AI superpočítač s bilionovými parametry Kimi-K2.5 na 4 strojích Mac Studio s 512 GB

Náklady pouze 300 000? Jak postavit osobní AI superpočítač s bilionovými parametry Kimi-K2.5 na 4 strojích Mac Studio s 512 GB

Proč se do toho pouštět?

Krok 1: Aktivace podpory RDMA

Krok 2: Instalace EXO

Krok 3: Fyzické připojení a topologie

Krok 4: Stáhnout a spustit MLX komunitní verzi Kimi-K2.5

Konečný efekt a měření

Shrnutí

You Might Also Like

Claude Code Buddy úpravy: Jak získat lesklého legendárního mazlíčka

Obsidian uvedl Defuddle, který posunul Obsidian Web Clipper na novou úroveň

OpenAI náhle oznámila "třív jednom": sloučení prohlížeče + programování + ChatGPT, interně přiznává, že se v uplynulém roce mýlila

2026, už se nenuťte k "sebeovládání"! Udělejte těchto 8 drobností a zdraví přijde přirozeně

Ty matky, které se snaží zhubnout, ale nedaří se jim, se určitě potýkají s tímto problémem

AI Browser 24 hodinový stabilní provozní průvodce