Vain 300 000? Kuinka rakentaa henkilökohtainen AI-supertietokone neljällä 512GB Mac Studiolla, miljardin parametrin Kimi-K2.5 paikallinen käyttöönotto-opas

Tässä suurten mallien aikakaudessa meillä kaikilla on unelma: ajaa paikallisesti miljardin parametrin mallia, joka on verrattavissa GPT-5:een. Mutta todellisuus on karu; miljardin parametrin malli vaatii valtavasti näytönohjaimen muistia, jopa 4-bittisellä kvantoinnilla. H100, B200 ovat liian kalliita, mitä tehdä?

Tänään JamePeng vie meidät neljän täysvarustellun M3 Ultra Mac Studion avulla, käyttäen EXO+MLX:ää ja Thunderbolt 5:ttä, luomaan paikallisen AI-supertietokoneen, jossa on 2TB yhtenäistä muistia! Tavoite on vain yksi: saada Kimi-K2.5 miljardin parametrin malli toimimaan paikallisesti.

Miksi vaivautua näin?

Ei vain siksi, että se on siistiä, vaan myös tietosuojan ja äärimmäisen paikallisen hallinnan vuoksi.

Ydinaseena on EXO (GitHub: exo-explore/exo), joka tukee RDMA:ta (etäsuora muistin käyttö), ja voi yhdistää neljän Macin yhtenäisen muistin yhdeksi suureksi näytönohjaimen muistipooliksi.

Laitteiston luettelo: 4 Mac Studioa (M3 Ultra, 512GB muistikapasiteetti), yhteensä noin 2TB näytönohjaimen muistia, yhdistettynä Thunderbolt 5:llä (120Gbps kaistanleveys), järjestelmän on oltava macOS Tahoe 26.2 tai uudempi versio.

Vaihe 1: Ota RDMA-tuki käyttöön

Toimi jokaisella Macilla:

Sammuta Mac, siirry palautustilaan (pidä virtapainiketta painettuna, valitse "Options" > "Continue")
Avaa Terminal, suorita: bputil -a rdma
Käynnistä Mac uudelleen
Varmista: systemprofiler SPThunderboltDataType tarkista RDMA:n aktivointi

Thunderbolt 5 tarjoaa 120Gbps kaistanleveyden, joka tukee täydellisesti tiedonsiirtoa.

Vaihe 2: Asenna EXO

macOS-sovelluksen asennus: Lataa EXO-version.dmg GitHubista, asenna ja suorita. Avaa Dashboard ja lisää muiden Macien IP-osoitteet.

Lähdekoodin asennus:

Asenna Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Vaihe 3: Fyysinen liitäntä ja topologia

Älä käytä Wi-Fi-yhteyttä! Vaikka se olisi Wi-Fi 7, se ei toimi. Miljardin parametrin mallin päättely on erittäin herkkä kaistanleveydelle. Käytä Thunderbolt 5 -kaapelia, aseta yksi Mac pääsolmuksi (Master) ja kolme muuta työsolmuiksi (Worker). Suositellaan tähden muotoista topologiaa tai ketjuliitäntää.

EXO Dashboardissa sinun pitäisi nähdä 4 laitetta kaikki online, ja kokonaismuistipoolin pitäisi näyttää 2048 GB.

Vaihe 4: Lataa ja suorita MLX-yhteisöversio Kimi-K2.5

Lataa malli:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Käynnistä päättelymoottori:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Komentojen selitys:

--model: osoittaa mallin hakemistoon
--quant 4: käyttää 4-bittistä kvantointia muistin käytön vähentämiseksi
--shards auto: EXO jakaa mallin automaattisesti
--engine mlx: käyttää M3 Ultra:n 76-ydin GPU:ta ja Neural Engineä päättelyyn

Lopputulos ja testitulokset

Kun terminaali näyttää Ready, sinulla on oma AI-supertietokoneesi.

Esitäytön (Prefill) vaihe: 4 Macin tuulettimet alkavat hieman kiihtyä (M3 Ultra:n energiatehokkuuden ansiosta, ne eivät nouse lentoon).

Generointi (Generation) vaihe: Tokenit tulevat yksi kerrallaan.

Nopeus: Vaikka se ei yllä H100-klusterin tasolle, Thunderbolt 5:n RDMA:n ansiosta tokenin generointinopeus voi saavuttaa 17-28 tokenia/s. Tämä on täysin vuorovaikutteista miljardin parametrin mallille!

Yhteenveto

Tämä ratkaisu ei ole halpa, mutta se todistaa, että Apple Siliconin ja avoimen lähdekoodin yhteisön ponnistelujen avulla hajautetun AI:n tulevaisuus on tulossa. Meidän ei tarvitse siirtää tietoja pilvijättiläisille; voimme hyödyntää käsillä olevia laitteita ja rakentaa voimakkaita yksityisiä päättelyklustereita.

Vain 300 000? Kuinka rakentaa henkilökohtainen AI-supertietokone neljällä 512GB Mac Studiolla, miljardin parametrin Kimi-K2.5 paikallinen käyttöönotto-opas

Vain 300 000? Kuinka rakentaa henkilökohtainen AI-supertietokone neljällä 512GB Mac Studiolla, miljardin parametrin Kimi-K2.5 paikallinen käyttöönotto-opas

Miksi vaivautua näin?

Vaihe 1: Ota RDMA-tuki käyttöön

Vaihe 2: Asenna EXO

Vaihe 3: Fyysinen liitäntä ja topologia

Vaihe 4: Lataa ja suorita MLX-yhteisöversio Kimi-K2.5

Lopputulos ja testitulokset

Yhteenveto

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian julkaisi Defuddlen, joka vie Obsidian Web Clipperin uudelle tasolle

OpenAI yllättäen ilmoittaa "kolme yhdessä": selain + ohjelmointi + ChatGPT yhdistyvät, sisäisesti myönnetään, että viime vuosi meni pieleen

2026, älä pakota itseäsi 'itsekuriksi'! Tee nämä 8 pientä asiaa, terveys tulee luonnostaan

Ne äidit, jotka yrittävät laihtua mutta eivät onnistu, kompastuvat varmasti tähän

AI Browser 24小时稳定运行指南