Kainuoja tik 300 tūkst.? Kaip sukurti asmeninį AI superkompiuterį su 4 512GB Mac Studio, vietinė Kimi-K2.5 diegimo instrukcija

Šiame didelių modelių bumo laikotarpyje visi turime svajonę: vietoje paleisti trilijono parametrų modelį, kuris prilygtų GPT-5 lygiui. Tačiau realybė yra žiauri, trilijono parametrų modeliams, net ir 4-bitų kiekybiniu, reikia milžiniškos vaizdo atminties. H100, B200 yra per brangūs, ką daryti, jei negali sau leisti?

Šiandien JamePeng parodys, kaip su 4 pilnai įrengtų M3 Ultra Mac Studio, naudojant EXO+MLX ir Thunderbolt 5, sukurti vietinį AI superkompiuterį su 2TB vieninga atmintimi! Tikslas yra vienas: vietoje paleisti Kimi-K2.5 trilijono parametrų didelį modelį.

Kodėl reikia tiek vargti?

Ne tik dėl šaunumo, bet ir dėl duomenų privatumo bei ekstremalaus vietinio kontrolės.

Pagrindinė priemonė yra EXO (GitHub: exo-explore/exo), kuris palaiko RDMA (nuotolinį tiesioginį atminties prieigą), leidžiantį sujungti 4 Mac vieningą atmintį į milžinišką vaizdo atminties baseiną.

Įrangos sąrašas: 4 Mac Studio (M3 Ultra, 512GB atminties versija), bendra vaizdo atmintis apie 2TB, jungimui naudojant Thunderbolt 5 (120Gbps pralaidumas), sistema turi būti macOS Tahoe 26.2 arba naujesnė versija.

Žingsnis 1: Įgalinti RDMA palaikymą

Kiekviename Mac atlikite šiuos veiksmus:

Išjunkite Mac, pereikite į atkūrimo režimą (paspauskite maitinimo mygtuką, pasirinkite "Options" > "Continue")
Atidarykite Terminalą, vykdykite: bputil -a rdma
Perkraukite Mac
Patikrinkite: systemprofiler SPThunderboltDataType, kad patvirtintumėte RDMA įgalinimą

Thunderbolt 5 suteikia 120Gbps pralaidumą, puikiai palaiko duomenų perdavimą.

Žingsnis 2: Įdiekite EXO

macOS programos diegimas: atsisiųskite EXO-version.dmg iš GitHub, įdiekite ir paleiskite. Atidarykite Dashboard, pridėkite kitų Mac IP.

Šaltinio kodo diegimas:

Įdiekite Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Žingsnis 3: Fizinis sujungimas ir topologija

Nenaudokite Wi-Fi tinklui! Net ir Wi-Fi 7 nepadės. Trilijono modelių inferencija yra itin jautri pralaidumui. Prašome naudoti Thunderbolt 5 kabelius, vieną Mac naudokite kaip pagrindinį mazgą (Master), o kitus tris kaip darbo mazgus (Worker). Rekomenduojama žvaigždžių topologija arba grandininis sujungimas.

EXO Dashboard turėtumėte matyti, kad 4 įrenginiai yra visi prisijungę, bendra atminties talpa rodo 2048 GB.

Žingsnis 4: Atsisiųsti ir paleisti MLX bendruomenės versiją Kimi-K2.5

Atsisiųskite modelį:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Paleiskite inferencijos variklį:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlxkomandos paaiškinimas:

--model: nurodo modelio katalogą
--quant 4: naudojant 4-bitų kiekybinį sumažinti atminties naudojimą
--shards auto: EXO automatiškai protingai padalina modelį
--engine mlx: kviečia M3 Ultra 76 branduolių GPU ir Neural Engine atlikti inferenciją

Galutinis rezultatas ir realūs matavimai

Kai terminalas rodo Ready, jūs turite savo AI superkompiuterį.

Išankstinis užpildymas (Prefill) etapas: 4 Mac ventiliatoriai pradeda šiek tiek greičiau suktis (dėl M3 Ultra energijos efektyvumo, jie neskrenda).

Generavimo (Generation) etapas: Tokenai vienas po kito iššoka.

Greitis: nors ir nesiekia H100 klasterio, tačiau dėka Thunderbolt 5 RDMA palaikymo, Tokenų generavimo greitis gali siekti 17-28 token/s. Tai visiškai interaktyvu trilijono parametrų modeliui!

Santrauka

Šis sprendimas tikrai nėra pigus, tačiau jis įrodo, kad su Apple Silicon + atvirojo kodo bendruomenės pastangomis decentralizuota AI ateitis artėja. Mes neturime perduoti duomenų debesų milžinams, naudodami turimus įrenginius, galime sukurti galingus privačius inferencijos klasterius.

Kainuoja tik 300 tūkst.? Kaip sukurti asmeninį AI superkompiuterį su 4 512GB Mac Studio, vietinė Kimi-K2.5 diegimo instrukcija

Kainuoja tik 300 tūkst.? Kaip sukurti asmeninį AI superkompiuterį su 4 512GB Mac Studio, vietinė Kimi-K2.5 diegimo instrukcija

Kodėl reikia tiek vargti?

Žingsnis 1: Įgalinti RDMA palaikymą

Žingsnis 2: Įdiekite EXO

Žingsnis 3: Fizinis sujungimas ir topologija

Žingsnis 4: Atsisiųsti ir paleisti MLX bendruomenės versiją Kimi-K2.5

Galutinis rezultatas ir realūs matavimai

Santrauka

You Might Also Like

Claude Code Buddy modificavimo vadovas: kaip gauti blizgantį legendinį augintinį

Obsidian pristatė Defuddle, pakeldama Obsidian Web Clipper į naujas aukštumas

OpenAI staiga paskelbė "trijų viename": naršyklė + programavimas + ChatGPT sujungimas, viduje pripažinta, kad per pastaruosius metus buvo padaryta klaida

2026, nebe reikės priversti save "savarankiškai"! Pasirūpinkite šiomis 8 mažomis užduotimis, sveikata ateis natūraliai

Motinos, kurios stengiasi numesti svorio, bet nesugeba, tikrai klysta čia

AI Naršyklė 24 valandų stabilaus veikimo vadovas