Costuri de doar 300.000? Ghid pentru implementarea locală a supercomputerului AI personal Kimi-K2.5 cu un trilion de parametri pe 4 Mac Studio de 512GB

2/26/2026
4 min read

Costuri de doar 300.000? Ghid pentru implementarea locală a supercomputerului AI personal Kimi-K2.5 cu un trilion de parametri pe 4 Mac Studio de 512GB

În această eră a modelelor mari, toți avem un vis: să rulăm local un model cu un trilion de parametri comparabil cu nivelul GPT-5. Dar realitatea este dură, modelele cu un trilion de parametri, chiar și cu cuantizare de 4 biți, necesită o cantitate imensă de memorie video. H100, B200 sunt prea scumpe, ce să facem?

Astăzi, JamePeng ne va arăta cum să construim un supercomputer AI local cu 4 Mac Studio M3 Ultra complet echipate, folosind EXO+MLX și Thunderbolt 5, creând astfel un computer cu 2TB de memorie unificată! Obiectivul este unul singur: să rulăm local modelul mare Kimi-K2.5 cu un trilion de parametri.

De ce să ne complicăm atât?

Nu doar pentru a fi cool, ci și pentru confidențialitatea datelor și controlul local extrem.

Arma principală este EXO (GitHub: exo-explore/exo), care suportă RDMA (Acces direct la memorie de la distanță), putând fuziona memoria unificată a celor 4 Mac-uri într-un imens pool de memorie video.

Lista de hardware: 4 Mac Studio (M3 Ultra, versiune cu 512GB memorie), memorie video totală de aproximativ 2TB, conectare prin Thunderbolt 5 (lățime de bandă de 120Gbps), sistemul necesită macOS Tahoe 26.2 sau o versiune mai recentă.

Pasul 1: Activarea suportului RDMA

Pe fiecare Mac:

  • Opriți Mac-ul, intrați în modul de recuperare (țineți apăsat butonul de alimentare, selectați "Options" > "Continue")
  • Deschideți Terminalul, rulați: bputil -a rdma
  • Reporniti Mac-ul
  • Verificați: systemprofiler SPThunderboltDataType pentru a verifica activarea RDMA
Thunderbolt 5 oferă o lățime de bandă de 120Gbps, susținând perfect transferul de date.

Pasul 2: Instalarea EXO

Instalare aplicație macOS: descărcați EXO-version.dmg de pe GitHub, instalați și rulați. Deschideți Dashboard-ul pentru a adăuga IP-urile altor Mac-uri.

Instalare din cod sursă:

  • Instalați Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Pasul 3: Conexiune fizică și topologie

Nu folosiți Wi-Fi pentru rețea! Chiar și Wi-Fi 7 nu este suficient. Inferența modelului cu un trilion de parametri este extrem de sensibilă la lățimea de bandă. Vă rugăm să folosiți cabluri Thunderbolt 5, să folosiți un Mac ca nod principal (Master), iar celelalte trei ca noduri de lucru (Worker). Se recomandă o topologie stea sau o conexiune în lanț.

În EXO Dashboard, ar trebui să vedeți toate cele 4 dispozitive online, iar pool-ul total de memorie ar trebui să fie de 2048 GB.

Pasul 4: Descărcarea și rularea versiunii comunității MLX Kimi-K2.5

  • Descărcați modelul:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Porniți motorul de inferență:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx analiza comenzii:

    • --model: indică directorul modelului
    • --quant 4: folosește cuantizarea de 4 biți pentru a reduce utilizarea memoriei
    • --shards auto: EXO împarte automat modelul
    • --engine mlx: apelează GPU-ul de 76 de nuclee și Neural Engine al M3 Ultra pentru inferență

    Efectul final și măsurători

    Când terminalul afișează Ready, aveți un supercomputer AI care vă aparține.

    Faza de preumplere (Prefill): ventilatoarele celor 4 Mac-uri încep să accelereze ușor (datorită eficienței energetice a M3 Ultra, nu vor decola).

    Faza de generare (Generation): Token-urile ies una după alta.

    Viteză: Deși nu se compară cu clusterele H100, datorită suportului RDMA al Thunderbolt 5, viteza de generare a token-urilor poate ajunge la 17-28 tokens/s. Acest lucru este complet interactiv pentru un model cu un trilion de parametri!

    Concluzie

    Această soluție nu este deloc ieftină, dar dovedește că, datorită eforturilor comunității Apple Silicon + open source, viitorul AI-ului descentralizat este pe cale să vină. Nu trebuie să trimitem datele către giganții din cloud, folosind echipamentele de care dispunem, putem construi clustere puternice de inferență private.

    Published in Technology

    You Might Also Like