Vai tikai 300 000? Personālā AI superdatora izveide uz 4 512GB Mac Studio, triljonu parametru Kimi-K2.5 vietējā izvietošanas ceļvedis
Vai tikai 300 000? Personālā AI superdatora izveide uz 4 512GB Mac Studio, triljonu parametru Kimi-K2.5 vietējā izvietošanas ceļvedis
Šajā lielo modeļu laikmetā mums visiem ir sapnis: vietēji darbināt triljonu parametru modeli, kas ir līdzvērtīgs GPT-5 līmenim. Bet realitāte ir skarba, triljonu parametru modeļiem pat 4-bit kvantizācijā ir nepieciešama milzīga video atmiņa. H100, B200 ir pārāk dārgi, ko darīt, ja nevar atļauties?
Šodien JamePeng parādīs, kā ar 4 pilnībā aprīkotiem M3 Ultra Mac Studio, izmantojot EXO+MLX un Thunderbolt 5, izveidot vietējo AI superdatoru ar 2TB vienotu atmiņu! Mērķis ir tikai viens: vietēji palaist Kimi-K2.5 triljonu parametru lielo modeli.
Kāpēc tik daudz mocīties?
Ne tikai tāpēc, lai būtu stilīgi, bet arī datu privātuma un maksimālas vietējās kontroles dēļ.
Galvenais ierocis ir EXO (GitHub: exo-explore/exo), kas atbalsta RDMA (tālvadības tiešo atmiņas piekļuvi), ļaujot apvienot 4 Mac vienoto atmiņu milzīgā video atmiņas baseinā.
Aprīkojuma saraksts: 4 Mac Studio (M3 Ultra, 512GB atmiņas versija), kopējā video atmiņa apmēram 2TB, savienojums izmantojot Thunderbolt 5 (120Gbps joslas platums), sistēmai nepieciešams macOS Tahoe 26.2 vai jaunāka versija.
Solis 1: Iespējot RDMA atbalstu
Veiciet darbības katrā Mac:
- Izslēdziet Mac, ieejiet atjaunošanas režīmā (nospiediet barošanas pogu, izvēlieties "Options" > "Continue")
- Atveriet Terminal, palaidiet: bputil -a rdma
- Restartējiet Mac
- Pārbaudiet: systemprofiler SPThunderboltDataType, lai pārbaudītu RDMA aktivizāciju
Solis 2: Instalēt EXO
macOS lietotnes instalācija: lejupielādējiet EXO-version.dmg no GitHub, instalējiet un palaidiet. Atveriet Dashboard, lai pievienotu citu Mac IP.
Avota koda instalācija:
- Instalējiet Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Solis 3: Fiziskā savienojamība un topoloģija
Nelietojiet Wi-Fi tīklu! Pat ja tas ir Wi-Fi 7, tas neder. Triljonu modeļa secinājumi ir ārkārtīgi jutīgi pret joslas platumu. Lūdzu, izmantojiet Thunderbolt 5 kabeli, lai vienu Mac izmantotu kā galveno mezglu (Master), bet pārējās trīs kā darba mezglus (Worker). Ieteicams zvaigžņu topoloģija vai ķēdes savienojums.
EXO Dashboard jābūt redzamiem 4 ierīcēm, kas visas ir tiešsaistē, kopējā atmiņas baseinā rādās 2048 GB.
Solis 4: Lejupielādēt un palaist MLX kopienas versiju Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Sāciet secinājumu dzinēju:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx komandas analīze:
- --model: norāda uz modeļa direktoriju
- --quant 4: izmanto 4-bit kvantizāciju, lai samazinātu atmiņas patēriņu
- --shards auto: EXO automātiski inteliģenti sadala modeli
- --engine mlx: izmanto M3 Ultra 76 kodolu GPU un Neural Engine secinājumiem
Gala rezultāts un reālie mērījumi
Kad termināls rāda Ready, jums pieder sava AI superdatora versija.
Iepriekšējā aizpildīšana (Prefill) posms: 4 Mac ventilatori sāk nedaudz paātrināties (pateicoties M3 Ultra energoefektivitātei, tie nepalielinās).
Ģenerēšanas (Generation) posms: Token viens pēc otra iznāk.
Ātrums: Lai gan tas nav salīdzināms ar H100 klasteri, pateicoties Thunderbolt 5 RDMA atbalstam, Token ģenerēšanas ātrums var sasniegt 17-28 tokens/s. Tas ir pilnīgi interaktīvs triljonu parametru modelim!
Kopsavilkums
Šis risinājums noteikti nav lēts, bet tas pierāda, ka Apple Silicon + atvērtā koda kopienas pūliņu rezultātā decentralizētā AI nākotne tuvojas. Mums nav nepieciešams nodot datus mākoņa gigantiem, izmantojot pieejamos ierīces, mēs varam izveidot jaudīgu privātu secinājumu klasteri.

