Vai tikai 300 000? Personālā AI superdatora izveide uz 4 512GB Mac Studio, triljonu parametru Kimi-K2.5 vietējā izvietošanas ceļvedis

Šajā lielo modeļu laikmetā mums visiem ir sapnis: vietēji darbināt triljonu parametru modeli, kas ir līdzvērtīgs GPT-5 līmenim. Bet realitāte ir skarba, triljonu parametru modeļiem pat 4-bit kvantizācijā ir nepieciešama milzīga video atmiņa. H100, B200 ir pārāk dārgi, ko darīt, ja nevar atļauties?

Šodien JamePeng parādīs, kā ar 4 pilnībā aprīkotiem M3 Ultra Mac Studio, izmantojot EXO+MLX un Thunderbolt 5, izveidot vietējo AI superdatoru ar 2TB vienotu atmiņu! Mērķis ir tikai viens: vietēji palaist Kimi-K2.5 triljonu parametru lielo modeli.

Kāpēc tik daudz mocīties?

Ne tikai tāpēc, lai būtu stilīgi, bet arī datu privātuma un maksimālas vietējās kontroles dēļ.

Galvenais ierocis ir EXO (GitHub: exo-explore/exo), kas atbalsta RDMA (tālvadības tiešo atmiņas piekļuvi), ļaujot apvienot 4 Mac vienoto atmiņu milzīgā video atmiņas baseinā.

Aprīkojuma saraksts: 4 Mac Studio (M3 Ultra, 512GB atmiņas versija), kopējā video atmiņa apmēram 2TB, savienojums izmantojot Thunderbolt 5 (120Gbps joslas platums), sistēmai nepieciešams macOS Tahoe 26.2 vai jaunāka versija.

Solis 1: Iespējot RDMA atbalstu

Veiciet darbības katrā Mac:

Izslēdziet Mac, ieejiet atjaunošanas režīmā (nospiediet barošanas pogu, izvēlieties "Options" > "Continue")
Atveriet Terminal, palaidiet: bputil -a rdma
Restartējiet Mac
Pārbaudiet: systemprofiler SPThunderboltDataType, lai pārbaudītu RDMA aktivizāciju

Thunderbolt 5 nodrošina 120Gbps joslas platumu, ideāli atbalstot datu pārsūtīšanu.

Solis 2: Instalēt EXO

macOS lietotnes instalācija: lejupielādējiet EXO-version.dmg no GitHub, instalējiet un palaidiet. Atveriet Dashboard, lai pievienotu citu Mac IP.

Avota koda instalācija:

Instalējiet Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Solis 3: Fiziskā savienojamība un topoloģija

Nelietojiet Wi-Fi tīklu! Pat ja tas ir Wi-Fi 7, tas neder. Triljonu modeļa secinājumi ir ārkārtīgi jutīgi pret joslas platumu. Lūdzu, izmantojiet Thunderbolt 5 kabeli, lai vienu Mac izmantotu kā galveno mezglu (Master), bet pārējās trīs kā darba mezglus (Worker). Ieteicams zvaigžņu topoloģija vai ķēdes savienojums.

EXO Dashboard jābūt redzamiem 4 ierīcēm, kas visas ir tiešsaistē, kopējā atmiņas baseinā rādās 2048 GB.

Solis 4: Lejupielādēt un palaist MLX kopienas versiju Kimi-K2.5

Lejupielādējiet modeli:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Sāciet secinājumu dzinēju:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx komandas analīze:

--model: norāda uz modeļa direktoriju
--quant 4: izmanto 4-bit kvantizāciju, lai samazinātu atmiņas patēriņu
--shards auto: EXO automātiski inteliģenti sadala modeli
--engine mlx: izmanto M3 Ultra 76 kodolu GPU un Neural Engine secinājumiem

Gala rezultāts un reālie mērījumi

Kad termināls rāda Ready, jums pieder sava AI superdatora versija.

Iepriekšējā aizpildīšana (Prefill) posms: 4 Mac ventilatori sāk nedaudz paātrināties (pateicoties M3 Ultra energoefektivitātei, tie nepalielinās).

Ģenerēšanas (Generation) posms: Token viens pēc otra iznāk.

Ātrums: Lai gan tas nav salīdzināms ar H100 klasteri, pateicoties Thunderbolt 5 RDMA atbalstam, Token ģenerēšanas ātrums var sasniegt 17-28 tokens/s. Tas ir pilnīgi interaktīvs triljonu parametru modelim!

Kopsavilkums

Šis risinājums noteikti nav lēts, bet tas pierāda, ka Apple Silicon + atvērtā koda kopienas pūliņu rezultātā decentralizētā AI nākotne tuvojas. Mums nav nepieciešams nodot datus mākoņa gigantiem, izmantojot pieejamos ierīces, mēs varam izveidot jaudīgu privātu secinājumu klasteri.

Vai tikai 300 000? Personālā AI superdatora izveide uz 4 512GB Mac Studio, triljonu parametru Kimi-K2.5 vietējā izvietošanas ceļvedis

Vai tikai 300 000? Personālā AI superdatora izveide uz 4 512GB Mac Studio, triljonu parametru Kimi-K2.5 vietējā izvietošanas ceļvedis

Kāpēc tik daudz mocīties?

Solis 1: Iespējot RDMA atbalstu

Solis 2: Instalēt EXO

Solis 3: Fiziskā savienojamība un topoloģija

Solis 4: Lejupielādēt un palaist MLX kopienas versiju Kimi-K2.5

Gala rezultāts un reālie mērījumi

Kopsavilkums

You Might Also Like

Claude Code Buddy modificēšanas ceļvedis: kā iegūt spīdīgu leģendāro mājdzīvnieku

Obsidian ir izlaidusi Defuddle, pacelot Obsidian Web Clipper uz jauniem augstumiem

OpenAI pēkšņi paziņo par "trīs vienā": pārlūks + programmēšana + ChatGPT apvienošana, iekšēji atzīst, ka pagājušajā gadā tika pieļautas kļūdas

2026, vairs neuzspied sevi "pašdisciplīnai"! Veic šos 8 sīkumus, veselība nāks dabiski

Māmiņas, kas cenšas zaudēt svaru, bet nesasniedz rezultātus, noteikti ir šeit

AI Pārlūka 24 stundu stabilas darbības ceļvedis