Costuri de doar 300.000? Ghid pentru implementarea locală a supercomputerului AI personal Kimi-K2.5 cu un trilion de parametri pe 4 Mac Studio de 512GB

În această eră a modelelor mari, toți avem un vis: să rulăm local un model cu un trilion de parametri comparabil cu nivelul GPT-5. Dar realitatea este dură, modelele cu un trilion de parametri, chiar și cu cuantizare de 4 biți, necesită o cantitate imensă de memorie video. H100, B200 sunt prea scumpe, ce să facem?

Astăzi, JamePeng ne va arăta cum să construim un supercomputer AI local cu 4 Mac Studio M3 Ultra complet echipate, folosind EXO+MLX și Thunderbolt 5, creând astfel un computer cu 2TB de memorie unificată! Obiectivul este unul singur: să rulăm local modelul mare Kimi-K2.5 cu un trilion de parametri.

De ce să ne complicăm atât?

Nu doar pentru a fi cool, ci și pentru confidențialitatea datelor și controlul local extrem.

Arma principală este EXO (GitHub: exo-explore/exo), care suportă RDMA (Acces direct la memorie de la distanță), putând fuziona memoria unificată a celor 4 Mac-uri într-un imens pool de memorie video.

Lista de hardware: 4 Mac Studio (M3 Ultra, versiune cu 512GB memorie), memorie video totală de aproximativ 2TB, conectare prin Thunderbolt 5 (lățime de bandă de 120Gbps), sistemul necesită macOS Tahoe 26.2 sau o versiune mai recentă.

Pasul 1: Activarea suportului RDMA

Pe fiecare Mac:

Opriți Mac-ul, intrați în modul de recuperare (țineți apăsat butonul de alimentare, selectați "Options" > "Continue")
Deschideți Terminalul, rulați: bputil -a rdma
Reporniti Mac-ul
Verificați: systemprofiler SPThunderboltDataType pentru a verifica activarea RDMA

Thunderbolt 5 oferă o lățime de bandă de 120Gbps, susținând perfect transferul de date.

Pasul 2: Instalarea EXO

Instalare aplicație macOS: descărcați EXO-version.dmg de pe GitHub, instalați și rulați. Deschideți Dashboard-ul pentru a adăuga IP-urile altor Mac-uri.

Instalare din cod sursă:

Instalați Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Pasul 3: Conexiune fizică și topologie

Nu folosiți Wi-Fi pentru rețea! Chiar și Wi-Fi 7 nu este suficient. Inferența modelului cu un trilion de parametri este extrem de sensibilă la lățimea de bandă. Vă rugăm să folosiți cabluri Thunderbolt 5, să folosiți un Mac ca nod principal (Master), iar celelalte trei ca noduri de lucru (Worker). Se recomandă o topologie stea sau o conexiune în lanț.

În EXO Dashboard, ar trebui să vedeți toate cele 4 dispozitive online, iar pool-ul total de memorie ar trebui să fie de 2048 GB.

Pasul 4: Descărcarea și rularea versiunii comunității MLX Kimi-K2.5

Descărcați modelul:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Porniți motorul de inferență:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx analiza comenzii:

--model: indică directorul modelului
--quant 4: folosește cuantizarea de 4 biți pentru a reduce utilizarea memoriei
--shards auto: EXO împarte automat modelul
--engine mlx: apelează GPU-ul de 76 de nuclee și Neural Engine al M3 Ultra pentru inferență

Efectul final și măsurători

Când terminalul afișează Ready, aveți un supercomputer AI care vă aparține.

Faza de preumplere (Prefill): ventilatoarele celor 4 Mac-uri încep să accelereze ușor (datorită eficienței energetice a M3 Ultra, nu vor decola).

Faza de generare (Generation): Token-urile ies una după alta.

Viteză: Deși nu se compară cu clusterele H100, datorită suportului RDMA al Thunderbolt 5, viteza de generare a token-urilor poate ajunge la 17-28 tokens/s. Acest lucru este complet interactiv pentru un model cu un trilion de parametri!

Concluzie

Această soluție nu este deloc ieftină, dar dovedește că, datorită eforturilor comunității Apple Silicon + open source, viitorul AI-ului descentralizat este pe cale să vină. Nu trebuie să trimitem datele către giganții din cloud, folosind echipamentele de care dispunem, putem construi clustere puternice de inferență private.

Costuri de doar 300.000? Ghid pentru implementarea locală a supercomputerului AI personal Kimi-K2.5 cu un trilion de parametri pe 4 Mac Studio de 512GB

Costuri de doar 300.000? Ghid pentru implementarea locală a supercomputerului AI personal Kimi-K2.5 cu un trilion de parametri pe 4 Mac Studio de 512GB

De ce să ne complicăm atât?

Pasul 1: Activarea suportului RDMA

Pasul 2: Instalarea EXO

Pasul 3: Conexiune fizică și topologie

Pasul 4: Descărcarea și rularea versiunii comunității MLX Kimi-K2.5

Efectul final și măsurători

Concluzie

You Might Also Like

Claude Code Buddy Modificare Ghid: Cum să obții un animal de companie legendar strălucitor

Obsidian a lansat Defuddle, ducând Obsidian Web Clipper la un nou nivel

OpenAI a anunțat brusc "3 în 1": combinarea browser-ului + programare + ChatGPT, recunoscând că a greșit în ultimul an

2026, nu te mai forța să fii "disciplinat"! Fă aceste 8 lucruri mici și sănătatea va veni natural

Mamele care se străduiesc să slăbească, dar nu reușesc, cu siguranță au căzut aici

AI Browser 24小时稳定运行指南