Kas see maksab vaid 300 000? Kuidas luua isiklik AI superarvuti 4 x 512GB Mac Studio abil, miljardite parameetrite Kimi-K2.5 kohalik paigaldusjuhend

2/26/2026
3 min read

Kas see maksab vaid 300 000? Kuidas luua isiklik AI superarvuti 4 x 512GB Mac Studio abil, miljardite parameetrite Kimi-K2.5 kohalik paigaldusjuhend

Selles suurte mudelite ajastus on meil kõigil unistus: käitada kohapeal miljardite parameetrite mudelit, mis on võrreldav GPT-5 tasemega. Kuid reaalsus on karm, miljardite parameetrite mudel vajab isegi 4-bitise kvantimise korral tohutult palju videomälu. H100, B200 on liiga kallid, mida teha, kui neid endale lubada ei saa?

Täna toob JamePeng teid 4 täisvarustuses M3 Ultra Mac Studio abil, kasutades EXO+MLX ja Thunderbolt 5, luues kohapeal AI superarvuti, millel on 2TB ühtne mälu! Eesmärk on ainult üks: käitada Kimi-K2.5 miljardite parameetrite suurt mudelit kohapeal.

Miks selline vaev?

See ei ole ainult selleks, et olla äge, vaid ka andmete privaatsuse ja äärmise kohaliku kontrolli nimel.

Keskne relv on EXO (GitHub: exo-explore/exo), mis toetab RDMA (kaugjuhtimise otse mälu juurdepääs), suudab nelja Maci ühtse mälu ühendada tohutuks videomälu basseiniks.

Riistvara nimekiri: 4 Mac Studio (M3 Ultra, 512GB mälu versioon), kokku umbes 2TB videomälu, ühendus Thunderbolt 5 (120Gbps ribalaius), süsteem vajab macOS Tahoe 26.2 või uuemat versiooni.

Samm 1: Luba RDMA tugi

Iga Maci peal toimingud:

  • Lülita Mac välja, mine taasterežiimi (hoia all toitenuppu, vali "Options" > "Continue")
  • Ava Terminal, käivita: bputil -a rdma
  • Taaskäivita Mac
  • Kontrolli: systemprofiler SPThunderboltDataType kontrolli RDMA lubamist
Thunderbolt 5 pakub 120Gbps ribalaiust, toetab andmeedastust ideaalselt.

Samm 2: Paigalda EXO

macOS rakenduse paigaldamine: Laadi GitHubist alla EXO-version.dmg, paigalda ja käivita. Ava Dashboard, et lisada teiste Macide IP-d.

Allika koodi paigaldamine:

  • Paigalda Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Samm 3: Füüsiline ühendus ja topoloogia

Ära kasuta Wi-Fi-d võrgustamiseks! Isegi Wi-Fi 7 ei sobi. Miljardite mudelite järeldus on ribalaiuse suhtes äärmiselt tundlik. Palun kasuta Thunderbolt 5 kaableid, määrake üks Mac peamiseks sõlmpunktiks (Master), teised kolm tööpunktideks (Worker). Soovitatav on tähtkujuline topoloogia või ahelühendus.

EXO Dashboardis peaksid nägema, et 4 seadet on kõik online, kogumälu bassein näitab 2048 GB.

Samm 4: Laadi alla ja käivita MLX kogukonna versioon Kimi-K2.5

  • Laadi mudel alla:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Käivita järeldusmootor:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx käsu selgitus:

    • --model: viitab mudeli kataloogile
    • --quant 4: kasutab 4-bitist kvantimist mälu kasutamise vähendamiseks
    • --shards auto: EXO jagab mudeli automaatselt nutikalt
    • --engine mlx: kutsub esile M3 Ultra 76 tuuma GPU ja Neural Engine järeldamiseks

    Lõpptulemus ja testimine

    Kui terminal näitab "Ready", siis on sul oma isiklik AI superarvuti.

    Eelnevalt täitmine (Prefill) etapp: 4 Maci ventilaatorid hakkavad kergelt kiirenema (tänu M3 Ultra energiatõhususele, ei tõuse nad liiga kõrgele).

    Generatsiooni (Generation) etapp: Tokenid hüppavad välja üksteise järel.

    Kiirus: Kuigi see ei saavuta H100 klastrite kiirus, tänu Thunderbolt 5 RDMA toele, võib Tokeni genereerimise kiirus ulatuda 17-28 tokenit/s. See on miljardite parameetrite mudeli jaoks täiesti interaktiivne!

    Kokkuvõte

    See lahendus ei ole kindlasti odav, kuid see tõestab, et Apple Siliconi + avatud kogukonna pingutuste abil on detsentraliseeritud AI tulevik tulemas. Me ei pea andmeid edastama pilvehiidudele, kasutades meie käepärast olevaid seadmeid, saame luua võimsaid privaatseid järeldusklastreid.

    Published in Technology

    You Might Also Like