Kainuoja tik 300 tūkst.? Kaip sukurti asmeninį AI superkompiuterį su 4 512GB Mac Studio, vietinė Kimi-K2.5 diegimo instrukcija
Kainuoja tik 300 tūkst.? Kaip sukurti asmeninį AI superkompiuterį su 4 512GB Mac Studio, vietinė Kimi-K2.5 diegimo instrukcija
Šiame didelių modelių bumo laikotarpyje visi turime svajonę: vietoje paleisti trilijono parametrų modelį, kuris prilygtų GPT-5 lygiui. Tačiau realybė yra žiauri, trilijono parametrų modeliams, net ir 4-bitų kiekybiniu, reikia milžiniškos vaizdo atminties. H100, B200 yra per brangūs, ką daryti, jei negali sau leisti?
Šiandien JamePeng parodys, kaip su 4 pilnai įrengtų M3 Ultra Mac Studio, naudojant EXO+MLX ir Thunderbolt 5, sukurti vietinį AI superkompiuterį su 2TB vieninga atmintimi! Tikslas yra vienas: vietoje paleisti Kimi-K2.5 trilijono parametrų didelį modelį.
Kodėl reikia tiek vargti?
Ne tik dėl šaunumo, bet ir dėl duomenų privatumo bei ekstremalaus vietinio kontrolės.
Pagrindinė priemonė yra EXO (GitHub: exo-explore/exo), kuris palaiko RDMA (nuotolinį tiesioginį atminties prieigą), leidžiantį sujungti 4 Mac vieningą atmintį į milžinišką vaizdo atminties baseiną.
Įrangos sąrašas: 4 Mac Studio (M3 Ultra, 512GB atminties versija), bendra vaizdo atmintis apie 2TB, jungimui naudojant Thunderbolt 5 (120Gbps pralaidumas), sistema turi būti macOS Tahoe 26.2 arba naujesnė versija.
Žingsnis 1: Įgalinti RDMA palaikymą
Kiekviename Mac atlikite šiuos veiksmus:
- Išjunkite Mac, pereikite į atkūrimo režimą (paspauskite maitinimo mygtuką, pasirinkite "Options" > "Continue")
- Atidarykite Terminalą, vykdykite: bputil -a rdma
- Perkraukite Mac
- Patikrinkite: systemprofiler SPThunderboltDataType, kad patvirtintumėte RDMA įgalinimą
Žingsnis 2: Įdiekite EXO
macOS programos diegimas: atsisiųskite EXO-version.dmg iš GitHub, įdiekite ir paleiskite. Atidarykite Dashboard, pridėkite kitų Mac IP.
Šaltinio kodo diegimas:
- Įdiekite Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Žingsnis 3: Fizinis sujungimas ir topologija
Nenaudokite Wi-Fi tinklui! Net ir Wi-Fi 7 nepadės. Trilijono modelių inferencija yra itin jautri pralaidumui. Prašome naudoti Thunderbolt 5 kabelius, vieną Mac naudokite kaip pagrindinį mazgą (Master), o kitus tris kaip darbo mazgus (Worker). Rekomenduojama žvaigždžių topologija arba grandininis sujungimas.
EXO Dashboard turėtumėte matyti, kad 4 įrenginiai yra visi prisijungę, bendra atminties talpa rodo 2048 GB.
Žingsnis 4: Atsisiųsti ir paleisti MLX bendruomenės versiją Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Paleiskite inferencijos variklį:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlxkomandos paaiškinimas:
- --model: nurodo modelio katalogą
- --quant 4: naudojant 4-bitų kiekybinį sumažinti atminties naudojimą
- --shards auto: EXO automatiškai protingai padalina modelį
- --engine mlx: kviečia M3 Ultra 76 branduolių GPU ir Neural Engine atlikti inferenciją
Galutinis rezultatas ir realūs matavimai
Kai terminalas rodo Ready, jūs turite savo AI superkompiuterį.
Išankstinis užpildymas (Prefill) etapas: 4 Mac ventiliatoriai pradeda šiek tiek greičiau suktis (dėl M3 Ultra energijos efektyvumo, jie neskrenda).
Generavimo (Generation) etapas: Tokenai vienas po kito iššoka.
Greitis: nors ir nesiekia H100 klasterio, tačiau dėka Thunderbolt 5 RDMA palaikymo, Tokenų generavimo greitis gali siekti 17-28 token/s. Tai visiškai interaktyvu trilijono parametrų modeliui!
Santrauka
Šis sprendimas tikrai nėra pigus, tačiau jis įrodo, kad su Apple Silicon + atvirojo kodo bendruomenės pastangomis decentralizuota AI ateitis artėja. Mes neturime perduoti duomenų debesų milžinams, naudodami turimus įrenginius, galime sukurti galingus privačius inferencijos klasterius.

