Náklady pouze 300 000? Jak postavit osobní AI superpočítač s bilionovými parametry Kimi-K2.5 na 4 strojích Mac Studio s 512 GB

2/26/2026
3 min read

Náklady pouze 300 000? Jak postavit osobní AI superpočítač s bilionovými parametry Kimi-K2.5 na 4 strojích Mac Studio s 512 GB

V této éře velkých modelů máme všichni sen: provozovat lokálně model s bilionovými parametry, který se vyrovná úrovni GPT-5. Ale realita je krutá, modely s bilionovými parametry, i když jsou kvantizovány na 4 bity, potřebují obrovské množství grafické paměti. H100 a B200 jsou příliš drahé, co dělat, když si je nemůžeme dovolit?

Dnes vás JamePeng provede tím, jak pomocí 4 plně vybavených M3 Ultra Mac Studio, prostřednictvím EXO+MLX a Thunderbolt 5, vytvořit lokální AI superpočítač s 2TB sdílenou pamětí! Cíl je jediný: úspěšně spustit model Kimi-K2.5 s bilionovými parametry.

Proč se do toho pouštět?

Nejde jen o to být cool, ale také o ochranu dat a maximální místní kontrolu.

Hlavní zbraní je EXO (GitHub: exo-explore/exo), který podporuje RDMA (Remote Direct Memory Access) a dokáže sloučit sdílenou paměť 4 Maců do obrovského grafického paměťového poolu.

Seznam hardwaru: 4 Mac Studio (M3 Ultra, verze s 512 GB paměti), celková grafická paměť přibližně 2 TB, připojení pomocí Thunderbolt 5 (širokopásmová šířka 120 Gbps), systém potřebuje macOS Tahoe 26.2 nebo novější verzi.

Krok 1: Aktivace podpory RDMA

Na každém Macu proveďte:

  • Vypněte Mac, přejděte do režimu obnovení (stiskněte tlačítko napájení, vyberte "Options" > "Continue")
  • Otevřete Terminal a spusťte: bputil -a rdma
  • Restartujte Mac
  • Ověřte: systemprofiler SPThunderboltDataType zkontrolujte, zda je RDMA aktivováno
Thunderbolt 5 poskytuje šířku pásma 120 Gbps, což perfektně podporuje přenos dat.

Krok 2: Instalace EXO

Instalace aplikace macOS: Stáhněte EXO-version.dmg z GitHubu a nainstalujte. Otevřete Dashboard a přidejte IP adresy ostatních Maců.

Instalace ze zdrojového kódu:

  • Nainstalujte Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Krok 3: Fyzické připojení a topologie

Nepoužívejte Wi-Fi pro síť! Ani Wi-Fi 7 nebude stačit. Inferenční proces bilionového modelu je extrémně citlivý na šířku pásma. Použijte kabel Thunderbolt 5, přičemž jeden Mac bude hlavní uzel (Master) a ostatní tři budou pracovní uzly (Worker). Doporučuje se hvězdicová topologie nebo řetězové připojení.

V EXO Dashboard byste měli vidět, že všech 4 zařízení jsou online a celkový paměťový pool je zobrazen jako 2048 GB.

Krok 4: Stáhnout a spustit MLX komunitní verzi Kimi-K2.5

  • Stáhněte model:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Spusťte inferenční engine:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Vysvětlení příkazu:

    • --model: ukazuje na adresář modelu
    • --quant 4: používá 4-bitovou kvantizaci pro snížení využití paměti
    • --shards auto: EXO automaticky inteligentně rozděluje model
    • --engine mlx: využívá 76jádrové GPU a Neural Engine M3 Ultra pro inferenci

    Konečný efekt a měření

    Když terminál zobrazuje Ready, máte svůj vlastní AI superpočítač.

    Fáze předvyplnění (Prefill): Ventilátory 4 Maců začínají mírně zrychlovat (díky energetické účinnosti M3 Ultra, nebudou se přehřívat).

    Fáze generování (Generation): Tokeny se objevují jeden za druhým.

    Rychlost: I když se nemůže rovnat H100 clusteru, díky podpoře RDMA Thunderbolt 5 může rychlost generování tokenů dosáhnout 17-28 tokenů/s. To je pro model s bilionovými parametry zcela interaktivní!

    Shrnutí

    Tento systém rozhodně není levný, ale dokazuje, že díky úsilí Apple Silicon + open-source komunity se blíží decentralizovaná budoucnost AI. Nemusíme posílat data k obřím cloudovým poskytovatelům, s pomocí zařízení, která máme po ruce, můžeme vybudovat silné soukromé inferenční clustery.

    Published in Technology

    You Might Also Like