Kas see maksab vaid 300 000? Kuidas luua isiklik AI superarvuti 4 x 512GB Mac Studio abil, miljardite parameetrite Kimi-K2.5 kohalik paigaldusjuhend
Kas see maksab vaid 300 000? Kuidas luua isiklik AI superarvuti 4 x 512GB Mac Studio abil, miljardite parameetrite Kimi-K2.5 kohalik paigaldusjuhend
Selles suurte mudelite ajastus on meil kõigil unistus: käitada kohapeal miljardite parameetrite mudelit, mis on võrreldav GPT-5 tasemega. Kuid reaalsus on karm, miljardite parameetrite mudel vajab isegi 4-bitise kvantimise korral tohutult palju videomälu. H100, B200 on liiga kallid, mida teha, kui neid endale lubada ei saa?
Täna toob JamePeng teid 4 täisvarustuses M3 Ultra Mac Studio abil, kasutades EXO+MLX ja Thunderbolt 5, luues kohapeal AI superarvuti, millel on 2TB ühtne mälu! Eesmärk on ainult üks: käitada Kimi-K2.5 miljardite parameetrite suurt mudelit kohapeal.
Miks selline vaev?
See ei ole ainult selleks, et olla äge, vaid ka andmete privaatsuse ja äärmise kohaliku kontrolli nimel.
Keskne relv on EXO (GitHub: exo-explore/exo), mis toetab RDMA (kaugjuhtimise otse mälu juurdepääs), suudab nelja Maci ühtse mälu ühendada tohutuks videomälu basseiniks.
Riistvara nimekiri: 4 Mac Studio (M3 Ultra, 512GB mälu versioon), kokku umbes 2TB videomälu, ühendus Thunderbolt 5 (120Gbps ribalaius), süsteem vajab macOS Tahoe 26.2 või uuemat versiooni.
Samm 1: Luba RDMA tugi
Iga Maci peal toimingud:
- Lülita Mac välja, mine taasterežiimi (hoia all toitenuppu, vali "Options" > "Continue")
- Ava Terminal, käivita: bputil -a rdma
- Taaskäivita Mac
- Kontrolli: systemprofiler SPThunderboltDataType kontrolli RDMA lubamist
Samm 2: Paigalda EXO
macOS rakenduse paigaldamine: Laadi GitHubist alla EXO-version.dmg, paigalda ja käivita. Ava Dashboard, et lisada teiste Macide IP-d.
Allika koodi paigaldamine:
- Paigalda Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Samm 3: Füüsiline ühendus ja topoloogia
Ära kasuta Wi-Fi-d võrgustamiseks! Isegi Wi-Fi 7 ei sobi. Miljardite mudelite järeldus on ribalaiuse suhtes äärmiselt tundlik. Palun kasuta Thunderbolt 5 kaableid, määrake üks Mac peamiseks sõlmpunktiks (Master), teised kolm tööpunktideks (Worker). Soovitatav on tähtkujuline topoloogia või ahelühendus.
EXO Dashboardis peaksid nägema, et 4 seadet on kõik online, kogumälu bassein näitab 2048 GB.
Samm 4: Laadi alla ja käivita MLX kogukonna versioon Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Käivita järeldusmootor:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx käsu selgitus:
- --model: viitab mudeli kataloogile
- --quant 4: kasutab 4-bitist kvantimist mälu kasutamise vähendamiseks
- --shards auto: EXO jagab mudeli automaatselt nutikalt
- --engine mlx: kutsub esile M3 Ultra 76 tuuma GPU ja Neural Engine järeldamiseks
Lõpptulemus ja testimine
Kui terminal näitab "Ready", siis on sul oma isiklik AI superarvuti.
Eelnevalt täitmine (Prefill) etapp: 4 Maci ventilaatorid hakkavad kergelt kiirenema (tänu M3 Ultra energiatõhususele, ei tõuse nad liiga kõrgele).
Generatsiooni (Generation) etapp: Tokenid hüppavad välja üksteise järel.
Kiirus: Kuigi see ei saavuta H100 klastrite kiirus, tänu Thunderbolt 5 RDMA toele, võib Tokeni genereerimise kiirus ulatuda 17-28 tokenit/s. See on miljardite parameetrite mudeli jaoks täiesti interaktiivne!
Kokkuvõte
See lahendus ei ole kindlasti odav, kuid see tõestab, et Apple Siliconi + avatud kogukonna pingutuste abil on detsentraliseeritud AI tulevik tulemas. Me ei pea andmeid edastama pilvehiidudele, kasutades meie käepärast olevaid seadmeid, saame luua võimsaid privaatseid järeldusklastreid.

