Vain 300 000? Kuinka rakentaa henkilökohtainen AI-supertietokone neljällä 512GB Mac Studiolla, miljardin parametrin Kimi-K2.5 paikallinen käyttöönotto-opas
Vain 300 000? Kuinka rakentaa henkilökohtainen AI-supertietokone neljällä 512GB Mac Studiolla, miljardin parametrin Kimi-K2.5 paikallinen käyttöönotto-opas
Tässä suurten mallien aikakaudessa meillä kaikilla on unelma: ajaa paikallisesti miljardin parametrin mallia, joka on verrattavissa GPT-5:een. Mutta todellisuus on karu; miljardin parametrin malli vaatii valtavasti näytönohjaimen muistia, jopa 4-bittisellä kvantoinnilla. H100, B200 ovat liian kalliita, mitä tehdä?
Tänään JamePeng vie meidät neljän täysvarustellun M3 Ultra Mac Studion avulla, käyttäen EXO+MLX:ää ja Thunderbolt 5:ttä, luomaan paikallisen AI-supertietokoneen, jossa on 2TB yhtenäistä muistia! Tavoite on vain yksi: saada Kimi-K2.5 miljardin parametrin malli toimimaan paikallisesti.
Miksi vaivautua näin?
Ei vain siksi, että se on siistiä, vaan myös tietosuojan ja äärimmäisen paikallisen hallinnan vuoksi.
Ydinaseena on EXO (GitHub: exo-explore/exo), joka tukee RDMA:ta (etäsuora muistin käyttö), ja voi yhdistää neljän Macin yhtenäisen muistin yhdeksi suureksi näytönohjaimen muistipooliksi.
Laitteiston luettelo: 4 Mac Studioa (M3 Ultra, 512GB muistikapasiteetti), yhteensä noin 2TB näytönohjaimen muistia, yhdistettynä Thunderbolt 5:llä (120Gbps kaistanleveys), järjestelmän on oltava macOS Tahoe 26.2 tai uudempi versio.
Vaihe 1: Ota RDMA-tuki käyttöön
Toimi jokaisella Macilla:
- Sammuta Mac, siirry palautustilaan (pidä virtapainiketta painettuna, valitse "Options" > "Continue")
- Avaa Terminal, suorita: bputil -a rdma
- Käynnistä Mac uudelleen
- Varmista: systemprofiler SPThunderboltDataType tarkista RDMA:n aktivointi
Vaihe 2: Asenna EXO
macOS-sovelluksen asennus: Lataa EXO-version.dmg GitHubista, asenna ja suorita. Avaa Dashboard ja lisää muiden Macien IP-osoitteet.
Lähdekoodin asennus:
- Asenna Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Vaihe 3: Fyysinen liitäntä ja topologia
Älä käytä Wi-Fi-yhteyttä! Vaikka se olisi Wi-Fi 7, se ei toimi. Miljardin parametrin mallin päättely on erittäin herkkä kaistanleveydelle. Käytä Thunderbolt 5 -kaapelia, aseta yksi Mac pääsolmuksi (Master) ja kolme muuta työsolmuiksi (Worker). Suositellaan tähden muotoista topologiaa tai ketjuliitäntää.
EXO Dashboardissa sinun pitäisi nähdä 4 laitetta kaikki online, ja kokonaismuistipoolin pitäisi näyttää 2048 GB.
Vaihe 4: Lataa ja suorita MLX-yhteisöversio Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Käynnistä päättelymoottori:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Komentojen selitys:
- --model: osoittaa mallin hakemistoon
- --quant 4: käyttää 4-bittistä kvantointia muistin käytön vähentämiseksi
- --shards auto: EXO jakaa mallin automaattisesti
- --engine mlx: käyttää M3 Ultra:n 76-ydin GPU:ta ja Neural Engineä päättelyyn
Lopputulos ja testitulokset
Kun terminaali näyttää Ready, sinulla on oma AI-supertietokoneesi.
Esitäytön (Prefill) vaihe: 4 Macin tuulettimet alkavat hieman kiihtyä (M3 Ultra:n energiatehokkuuden ansiosta, ne eivät nouse lentoon).
Generointi (Generation) vaihe: Tokenit tulevat yksi kerrallaan.
Nopeus: Vaikka se ei yllä H100-klusterin tasolle, Thunderbolt 5:n RDMA:n ansiosta tokenin generointinopeus voi saavuttaa 17-28 tokenia/s. Tämä on täysin vuorovaikutteista miljardin parametrin mallille!
Yhteenveto
Tämä ratkaisu ei ole halpa, mutta se todistaa, että Apple Siliconin ja avoimen lähdekoodin yhteisön ponnistelujen avulla hajautetun AI:n tulevaisuus on tulossa. Meidän ei tarvitse siirtää tietoja pilvijättiläisille; voimme hyödyntää käsillä olevia laitteita ja rakentaa voimakkaita yksityisiä päättelyklustereita.

