Vai tikai 300 000? Personālā AI superdatora izveide uz 4 512GB Mac Studio, triljonu parametru Kimi-K2.5 vietējā izvietošanas ceļvedis

2/26/2026
3 min read

Vai tikai 300 000? Personālā AI superdatora izveide uz 4 512GB Mac Studio, triljonu parametru Kimi-K2.5 vietējā izvietošanas ceļvedis

Šajā lielo modeļu laikmetā mums visiem ir sapnis: vietēji darbināt triljonu parametru modeli, kas ir līdzvērtīgs GPT-5 līmenim. Bet realitāte ir skarba, triljonu parametru modeļiem pat 4-bit kvantizācijā ir nepieciešama milzīga video atmiņa. H100, B200 ir pārāk dārgi, ko darīt, ja nevar atļauties?

Šodien JamePeng parādīs, kā ar 4 pilnībā aprīkotiem M3 Ultra Mac Studio, izmantojot EXO+MLX un Thunderbolt 5, izveidot vietējo AI superdatoru ar 2TB vienotu atmiņu! Mērķis ir tikai viens: vietēji palaist Kimi-K2.5 triljonu parametru lielo modeli.

Kāpēc tik daudz mocīties?

Ne tikai tāpēc, lai būtu stilīgi, bet arī datu privātuma un maksimālas vietējās kontroles dēļ.

Galvenais ierocis ir EXO (GitHub: exo-explore/exo), kas atbalsta RDMA (tālvadības tiešo atmiņas piekļuvi), ļaujot apvienot 4 Mac vienoto atmiņu milzīgā video atmiņas baseinā.

Aprīkojuma saraksts: 4 Mac Studio (M3 Ultra, 512GB atmiņas versija), kopējā video atmiņa apmēram 2TB, savienojums izmantojot Thunderbolt 5 (120Gbps joslas platums), sistēmai nepieciešams macOS Tahoe 26.2 vai jaunāka versija.

Solis 1: Iespējot RDMA atbalstu

Veiciet darbības katrā Mac:

  • Izslēdziet Mac, ieejiet atjaunošanas režīmā (nospiediet barošanas pogu, izvēlieties "Options" > "Continue")
  • Atveriet Terminal, palaidiet: bputil -a rdma
  • Restartējiet Mac
  • Pārbaudiet: systemprofiler SPThunderboltDataType, lai pārbaudītu RDMA aktivizāciju
Thunderbolt 5 nodrošina 120Gbps joslas platumu, ideāli atbalstot datu pārsūtīšanu.

Solis 2: Instalēt EXO

macOS lietotnes instalācija: lejupielādējiet EXO-version.dmg no GitHub, instalējiet un palaidiet. Atveriet Dashboard, lai pievienotu citu Mac IP.

Avota koda instalācija:

  • Instalējiet Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Solis 3: Fiziskā savienojamība un topoloģija

Nelietojiet Wi-Fi tīklu! Pat ja tas ir Wi-Fi 7, tas neder. Triljonu modeļa secinājumi ir ārkārtīgi jutīgi pret joslas platumu. Lūdzu, izmantojiet Thunderbolt 5 kabeli, lai vienu Mac izmantotu kā galveno mezglu (Master), bet pārējās trīs kā darba mezglus (Worker). Ieteicams zvaigžņu topoloģija vai ķēdes savienojums.

EXO Dashboard jābūt redzamiem 4 ierīcēm, kas visas ir tiešsaistē, kopējā atmiņas baseinā rādās 2048 GB.

Solis 4: Lejupielādēt un palaist MLX kopienas versiju Kimi-K2.5

  • Lejupielādējiet modeli:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Sāciet secinājumu dzinēju:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx komandas analīze:

    • --model: norāda uz modeļa direktoriju
    • --quant 4: izmanto 4-bit kvantizāciju, lai samazinātu atmiņas patēriņu
    • --shards auto: EXO automātiski inteliģenti sadala modeli
    • --engine mlx: izmanto M3 Ultra 76 kodolu GPU un Neural Engine secinājumiem

    Gala rezultāts un reālie mērījumi

    Kad termināls rāda Ready, jums pieder sava AI superdatora versija.

    Iepriekšējā aizpildīšana (Prefill) posms: 4 Mac ventilatori sāk nedaudz paātrināties (pateicoties M3 Ultra energoefektivitātei, tie nepalielinās).

    Ģenerēšanas (Generation) posms: Token viens pēc otra iznāk.

    Ātrums: Lai gan tas nav salīdzināms ar H100 klasteri, pateicoties Thunderbolt 5 RDMA atbalstam, Token ģenerēšanas ātrums var sasniegt 17-28 tokens/s. Tas ir pilnīgi interaktīvs triljonu parametru modelim!

    Kopsavilkums

    Šis risinājums noteikti nav lēts, bet tas pierāda, ka Apple Silicon + atvērtā koda kopienas pūliņu rezultātā decentralizētā AI nākotne tuvojas. Mums nav nepieciešams nodot datus mākoņa gigantiem, izmantojot pieejamos ierīces, mēs varam izveidot jaudīgu privātu secinājumu klasteri.

    Published in Technology

    You Might Also Like