Cost només de 300.000? Guia de desplegament local de l'AI supercomputing Kimi-K2.5 amb 1 bilió de paràmetres en 4 Mac Studio de 512GB
Cost només de 300.000? Guia de desplegament local de l'AI supercomputing Kimi-K2.5 amb 1 bilió de paràmetres en 4 Mac Studio de 512GB
En aquesta era de models grans, tots tenim un somni: executar localment un model de 1 bilió de paràmetres que competeixi amb el nivell de GPT-5. Però la realitat és cruel, els models de 1 bilió de paràmetres, fins i tot amb quantització de 4 bits, necessiten una gran quantitat de memòria gràfica. H100, B200 són massa cars, què fer si no els podem comprar?
Avui, JamePeng ens porta a construir un supercomputador AI local amb 4 Mac Studio M3 Ultra completament equipades, mitjançant EXO+MLX i Thunderbolt 5, creant així una màquina amb 2TB de memòria unificada! L'objectiu és únic: executar localment el model gran Kimi-K2.5 amb 1 bilió de paràmetres.
Per què fer-ho?
No només per ser cool, sinó també per la privadesa de les dades i el control local extrem.
L'arma principal és EXO (GitHub: exo-explore/exo), que suporta RDMA (accés directe a la memòria remota), i pot fusionar la memòria unificada de les 4 Mac en un enorme dipòsit de memòria gràfica.
Llista de maquinari: 4 Mac Studio (M3 Ultra, versió de 512GB de memòria), amb una memòria gràfica total d'aproximadament 2TB, connectades mitjançant Thunderbolt 5 (ample de banda de 120Gbps), el sistema necessita macOS Tahoe 26.2 o una versió més recent.
Pas 1: Activar el suport RDMA
Operar en cada Mac:
- Apagueu el Mac, entreu en mode de recuperació (mantingueu premut el botó d'engegada, seleccioneu "Opcions" > "Continuar")
- Obriu el Terminal, executeu: bputil -a rdma
- Reinicieu el Mac
- Verifiqueu: systemprofiler SPThunderboltDataType per comprovar si RDMA està activat
Pas 2: Instal·lar EXO
Instal·lació de l'aplicació macOS: des de GitHub, descarregueu EXO-version.dmg, instal·leu i executeu. Obriu el Dashboard i afegiu les IP d'altres Macs.
Instal·lació del codi font:
- Instal·leu Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Pas 3: Connexió física i topologia
No utilitzeu Wi-Fi per a la xarxa! Ni tan sols Wi-Fi 7 funciona. La inferència de models de bilió és extremadament sensible a l'ample de banda. Si us plau, utilitzeu cables Thunderbolt 5, configureu un Mac com a node mestre (Master) i els altres tres com a nodes de treball (Worker). Es recomana una topologia en estrella o connexió en cadena.
Al Dashboard d'EXO, hauries de poder veure les 4 dispositius en línia, amb un dipòsit de memòria total de 2048 GB.
Pas 4: Descarregar i executar la versió comunitària de MLX Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Inicieu el motor d'inferència:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Anàlisi de comandes:
- --model: apunta al directori del model
- --quant 4: utilitza quantització de 4 bits per reduir l'ús de memòria
- --shards auto: EXO divideix automàticament el model
- --engine mlx: utilitza el GPU de 76 nuclis i el Neural Engine de l'M3 Ultra per a la inferència
Efecte final i proves
Quan el terminal mostra "Ready", ja tens un supercomputador AI que et pertany.
Fase de preompliment (Prefill): els ventiladors de les 4 Mac comencen a accelerar lleugerament (gràcies a l'eficiència energètica de l'M3 Ultra, no s'enlairaran).
Fase de generació (Generation): Tokens apareixen un darrere l'altre.
Velocitat: encara que no arriba a la velocitat del clúster H100, gràcies al suport RDMA de Thunderbolt 5, la velocitat de generació de tokens pot arribar a 17-28 tokens/s. Això és completament interactiu per a un model de 1 bilió de paràmetres!
Resum
Aquesta solució no és barata, però demostra que amb l'Apple Silicon i l'esforç de la comunitat de codi obert, el futur de la IA descentralitzada està arribant. No necessitem enviar les dades a grans empreses de núvol, podem construir potents clústers d'inferència privats amb els dispositius que tenim a mà.

