Cost només de 300.000? Guia de desplegament local de l'AI supercomputing Kimi-K2.5 amb 1 bilió de paràmetres en 4 Mac Studio de 512GB

2/26/2026
4 min read

Cost només de 300.000? Guia de desplegament local de l'AI supercomputing Kimi-K2.5 amb 1 bilió de paràmetres en 4 Mac Studio de 512GB

En aquesta era de models grans, tots tenim un somni: executar localment un model de 1 bilió de paràmetres que competeixi amb el nivell de GPT-5. Però la realitat és cruel, els models de 1 bilió de paràmetres, fins i tot amb quantització de 4 bits, necessiten una gran quantitat de memòria gràfica. H100, B200 són massa cars, què fer si no els podem comprar?

Avui, JamePeng ens porta a construir un supercomputador AI local amb 4 Mac Studio M3 Ultra completament equipades, mitjançant EXO+MLX i Thunderbolt 5, creant així una màquina amb 2TB de memòria unificada! L'objectiu és únic: executar localment el model gran Kimi-K2.5 amb 1 bilió de paràmetres.

Per què fer-ho?

No només per ser cool, sinó també per la privadesa de les dades i el control local extrem.

L'arma principal és EXO (GitHub: exo-explore/exo), que suporta RDMA (accés directe a la memòria remota), i pot fusionar la memòria unificada de les 4 Mac en un enorme dipòsit de memòria gràfica.

Llista de maquinari: 4 Mac Studio (M3 Ultra, versió de 512GB de memòria), amb una memòria gràfica total d'aproximadament 2TB, connectades mitjançant Thunderbolt 5 (ample de banda de 120Gbps), el sistema necessita macOS Tahoe 26.2 o una versió més recent.

Pas 1: Activar el suport RDMA

Operar en cada Mac:

  • Apagueu el Mac, entreu en mode de recuperació (mantingueu premut el botó d'engegada, seleccioneu "Opcions" > "Continuar")
  • Obriu el Terminal, executeu: bputil -a rdma
  • Reinicieu el Mac
  • Verifiqueu: systemprofiler SPThunderboltDataType per comprovar si RDMA està activat
Thunderbolt 5 proporciona un ample de banda de 120Gbps, suportant perfectament la transferència de dades.

Pas 2: Instal·lar EXO

Instal·lació de l'aplicació macOS: des de GitHub, descarregueu EXO-version.dmg, instal·leu i executeu. Obriu el Dashboard i afegiu les IP d'altres Macs.

Instal·lació del codi font:

  • Instal·leu Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Pas 3: Connexió física i topologia

No utilitzeu Wi-Fi per a la xarxa! Ni tan sols Wi-Fi 7 funciona. La inferència de models de bilió és extremadament sensible a l'ample de banda. Si us plau, utilitzeu cables Thunderbolt 5, configureu un Mac com a node mestre (Master) i els altres tres com a nodes de treball (Worker). Es recomana una topologia en estrella o connexió en cadena.

Al Dashboard d'EXO, hauries de poder veure les 4 dispositius en línia, amb un dipòsit de memòria total de 2048 GB.

Pas 4: Descarregar i executar la versió comunitària de MLX Kimi-K2.5

  • Descarregueu el model:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Inicieu el motor d'inferència:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Anàlisi de comandes:

    • --model: apunta al directori del model
    • --quant 4: utilitza quantització de 4 bits per reduir l'ús de memòria
    • --shards auto: EXO divideix automàticament el model
    • --engine mlx: utilitza el GPU de 76 nuclis i el Neural Engine de l'M3 Ultra per a la inferència

    Efecte final i proves

    Quan el terminal mostra "Ready", ja tens un supercomputador AI que et pertany.

    Fase de preompliment (Prefill): els ventiladors de les 4 Mac comencen a accelerar lleugerament (gràcies a l'eficiència energètica de l'M3 Ultra, no s'enlairaran).

    Fase de generació (Generation): Tokens apareixen un darrere l'altre.

    Velocitat: encara que no arriba a la velocitat del clúster H100, gràcies al suport RDMA de Thunderbolt 5, la velocitat de generació de tokens pot arribar a 17-28 tokens/s. Això és completament interactiu per a un model de 1 bilió de paràmetres!

    Resum

    Aquesta solució no és barata, però demostra que amb l'Apple Silicon i l'esforç de la comunitat de codi obert, el futur de la IA descentralitzada està arribant. No necessitem enviar les dades a grans empreses de núvol, podem construir potents clústers d'inferència privats amb els dispositius que tenim a mà.

    Published in Technology

    You Might Also Like