Cost només de 300.000? Guia de desplegament local de l'AI supercomputing Kimi-K2.5 amb 1 bilió de paràmetres en 4 Mac Studio de 512GB

En aquesta era de models grans, tots tenim un somni: executar localment un model de 1 bilió de paràmetres que competeixi amb el nivell de GPT-5. Però la realitat és cruel, els models de 1 bilió de paràmetres, fins i tot amb quantització de 4 bits, necessiten una gran quantitat de memòria gràfica. H100, B200 són massa cars, què fer si no els podem comprar?

Avui, JamePeng ens porta a construir un supercomputador AI local amb 4 Mac Studio M3 Ultra completament equipades, mitjançant EXO+MLX i Thunderbolt 5, creant així una màquina amb 2TB de memòria unificada! L'objectiu és únic: executar localment el model gran Kimi-K2.5 amb 1 bilió de paràmetres.

Per què fer-ho?

No només per ser cool, sinó també per la privadesa de les dades i el control local extrem.

L'arma principal és EXO (GitHub: exo-explore/exo), que suporta RDMA (accés directe a la memòria remota), i pot fusionar la memòria unificada de les 4 Mac en un enorme dipòsit de memòria gràfica.

Llista de maquinari: 4 Mac Studio (M3 Ultra, versió de 512GB de memòria), amb una memòria gràfica total d'aproximadament 2TB, connectades mitjançant Thunderbolt 5 (ample de banda de 120Gbps), el sistema necessita macOS Tahoe 26.2 o una versió més recent.

Pas 1: Activar el suport RDMA

Operar en cada Mac:

Apagueu el Mac, entreu en mode de recuperació (mantingueu premut el botó d'engegada, seleccioneu "Opcions" > "Continuar")
Obriu el Terminal, executeu: bputil -a rdma
Reinicieu el Mac
Verifiqueu: systemprofiler SPThunderboltDataType per comprovar si RDMA està activat

Thunderbolt 5 proporciona un ample de banda de 120Gbps, suportant perfectament la transferència de dades.

Pas 2: Instal·lar EXO

Instal·lació de l'aplicació macOS: des de GitHub, descarregueu EXO-version.dmg, instal·leu i executeu. Obriu el Dashboard i afegiu les IP d'altres Macs.

Instal·lació del codi font:

Instal·leu Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Pas 3: Connexió física i topologia

No utilitzeu Wi-Fi per a la xarxa! Ni tan sols Wi-Fi 7 funciona. La inferència de models de bilió és extremadament sensible a l'ample de banda. Si us plau, utilitzeu cables Thunderbolt 5, configureu un Mac com a node mestre (Master) i els altres tres com a nodes de treball (Worker). Es recomana una topologia en estrella o connexió en cadena.

Al Dashboard d'EXO, hauries de poder veure les 4 dispositius en línia, amb un dipòsit de memòria total de 2048 GB.

Pas 4: Descarregar i executar la versió comunitària de MLX Kimi-K2.5

Descarregueu el model:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Inicieu el motor d'inferència:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Anàlisi de comandes:

--model: apunta al directori del model
--quant 4: utilitza quantització de 4 bits per reduir l'ús de memòria
--shards auto: EXO divideix automàticament el model
--engine mlx: utilitza el GPU de 76 nuclis i el Neural Engine de l'M3 Ultra per a la inferència

Efecte final i proves

Quan el terminal mostra "Ready", ja tens un supercomputador AI que et pertany.

Fase de preompliment (Prefill): els ventiladors de les 4 Mac comencen a accelerar lleugerament (gràcies a l'eficiència energètica de l'M3 Ultra, no s'enlairaran).

Fase de generació (Generation): Tokens apareixen un darrere l'altre.

Velocitat: encara que no arriba a la velocitat del clúster H100, gràcies al suport RDMA de Thunderbolt 5, la velocitat de generació de tokens pot arribar a 17-28 tokens/s. Això és completament interactiu per a un model de 1 bilió de paràmetres!

Resum

Aquesta solució no és barata, però demostra que amb l'Apple Silicon i l'esforç de la comunitat de codi obert, el futur de la IA descentralitzada està arribant. No necessitem enviar les dades a grans empreses de núvol, podem construir potents clústers d'inferència privats amb els dispositius que tenim a mà.

Cost només de 300.000? Guia de desplegament local de l'AI supercomputing Kimi-K2.5 amb 1 bilió de paràmetres en 4 Mac Studio de 512GB

Cost només de 300.000? Guia de desplegament local de l'AI supercomputing Kimi-K2.5 amb 1 bilió de paràmetres en 4 Mac Studio de 512GB

Per què fer-ho?

Pas 1: Activar el suport RDMA

Pas 2: Instal·lar EXO

Pas 3: Connexió física i topologia

Pas 4: Descarregar i executar la versió comunitària de MLX Kimi-K2.5

Efecte final i proves

Resum

You Might Also Like

Guia de modificació de Claude Code Buddy: com obtenir mascotes de llegenda brillants

Obsidian llança Defuddle, portant Obsidian Web Clipper a un nou nivell

OpenAI de sobte anuncia "tres en un": fusió de navegador + programació + ChatGPT, reconeixent que han comès errors durant l'últim any

2026, no et forcis a ser 'autònom'! Fes aquestes 8 petites coses, la salut vindrà de manera natural

Aquells pares que es dediquen a perdre pes i no ho aconsegueixen, segurament fallen aquí

Guia per a l'execució estable de l'AI Browser durant 24 hores