Kainuoja tik 300 tūkst.? Kaip sukurti asmeninį AI superkompiuterį su 4 512GB Mac Studio, vietinė Kimi-K2.5 diegimo instrukcija

2/26/2026
3 min read

Kainuoja tik 300 tūkst.? Kaip sukurti asmeninį AI superkompiuterį su 4 512GB Mac Studio, vietinė Kimi-K2.5 diegimo instrukcija

Šiame didelių modelių bumo laikotarpyje visi turime svajonę: vietoje paleisti trilijono parametrų modelį, kuris prilygtų GPT-5 lygiui. Tačiau realybė yra žiauri, trilijono parametrų modeliams, net ir 4-bitų kiekybiniu, reikia milžiniškos vaizdo atminties. H100, B200 yra per brangūs, ką daryti, jei negali sau leisti?

Šiandien JamePeng parodys, kaip su 4 pilnai įrengtų M3 Ultra Mac Studio, naudojant EXO+MLX ir Thunderbolt 5, sukurti vietinį AI superkompiuterį su 2TB vieninga atmintimi! Tikslas yra vienas: vietoje paleisti Kimi-K2.5 trilijono parametrų didelį modelį.

Kodėl reikia tiek vargti?

Ne tik dėl šaunumo, bet ir dėl duomenų privatumo bei ekstremalaus vietinio kontrolės.

Pagrindinė priemonė yra EXO (GitHub: exo-explore/exo), kuris palaiko RDMA (nuotolinį tiesioginį atminties prieigą), leidžiantį sujungti 4 Mac vieningą atmintį į milžinišką vaizdo atminties baseiną.

Įrangos sąrašas: 4 Mac Studio (M3 Ultra, 512GB atminties versija), bendra vaizdo atmintis apie 2TB, jungimui naudojant Thunderbolt 5 (120Gbps pralaidumas), sistema turi būti macOS Tahoe 26.2 arba naujesnė versija.

Žingsnis 1: Įgalinti RDMA palaikymą

Kiekviename Mac atlikite šiuos veiksmus:

  • Išjunkite Mac, pereikite į atkūrimo režimą (paspauskite maitinimo mygtuką, pasirinkite "Options" > "Continue")
  • Atidarykite Terminalą, vykdykite: bputil -a rdma
  • Perkraukite Mac
  • Patikrinkite: systemprofiler SPThunderboltDataType, kad patvirtintumėte RDMA įgalinimą
Thunderbolt 5 suteikia 120Gbps pralaidumą, puikiai palaiko duomenų perdavimą.

Žingsnis 2: Įdiekite EXO

macOS programos diegimas: atsisiųskite EXO-version.dmg iš GitHub, įdiekite ir paleiskite. Atidarykite Dashboard, pridėkite kitų Mac IP.

Šaltinio kodo diegimas:

  • Įdiekite Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Žingsnis 3: Fizinis sujungimas ir topologija

Nenaudokite Wi-Fi tinklui! Net ir Wi-Fi 7 nepadės. Trilijono modelių inferencija yra itin jautri pralaidumui. Prašome naudoti Thunderbolt 5 kabelius, vieną Mac naudokite kaip pagrindinį mazgą (Master), o kitus tris kaip darbo mazgus (Worker). Rekomenduojama žvaigždžių topologija arba grandininis sujungimas.

EXO Dashboard turėtumėte matyti, kad 4 įrenginiai yra visi prisijungę, bendra atminties talpa rodo 2048 GB.

Žingsnis 4: Atsisiųsti ir paleisti MLX bendruomenės versiją Kimi-K2.5

  • Atsisiųskite modelį:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Paleiskite inferencijos variklį:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlxkomandos paaiškinimas:

    • --model: nurodo modelio katalogą
    • --quant 4: naudojant 4-bitų kiekybinį sumažinti atminties naudojimą
    • --shards auto: EXO automatiškai protingai padalina modelį
    • --engine mlx: kviečia M3 Ultra 76 branduolių GPU ir Neural Engine atlikti inferenciją

    Galutinis rezultatas ir realūs matavimai

    Kai terminalas rodo Ready, jūs turite savo AI superkompiuterį.

    Išankstinis užpildymas (Prefill) etapas: 4 Mac ventiliatoriai pradeda šiek tiek greičiau suktis (dėl M3 Ultra energijos efektyvumo, jie neskrenda).

    Generavimo (Generation) etapas: Tokenai vienas po kito iššoka.

    Greitis: nors ir nesiekia H100 klasterio, tačiau dėka Thunderbolt 5 RDMA palaikymo, Tokenų generavimo greitis gali siekti 17-28 token/s. Tai visiškai interaktyvu trilijono parametrų modeliui!

    Santrauka

    Šis sprendimas tikrai nėra pigus, tačiau jis įrodo, kad su Apple Silicon + atvirojo kodo bendruomenės pastangomis decentralizuota AI ateitis artėja. Mes neturime perduoti duomenų debesų milžinams, naudodami turimus įrenginius, galime sukurti galingus privačius inferencijos klasterius.

    Published in Technology

    You Might Also Like