Coût seulement 300 000 ? Guide de déploiement local de l'IA personnelle Kimi-K2.5 avec 4 Mac Studio 512 Go
Coût seulement 300 000 ? Guide de déploiement local de l'IA personnelle Kimi-K2.5 avec 4 Mac Studio 512 Go
Dans cette ère de modèles massifs, nous avons tous un rêve : faire fonctionner localement un modèle de plusieurs billions de paramètres comparable à GPT-5. Mais la réalité est dure, un modèle de billions de paramètres nécessite une quantité massive de mémoire vidéo, même avec une quantification 4 bits. Les H100 et B200 sont trop chers, que faire ?
Aujourd'hui, JamePeng vous montre comment utiliser 4 Mac Studio M3 Ultra entièrement équipés, via EXO+MLX et Thunderbolt 5, pour créer une supercalculatrice IA locale avec 2 To de mémoire unifiée ! L'objectif est simple : faire fonctionner localement le modèle Kimi-K2.5 de billions de paramètres.
Pourquoi se donner tant de mal ?
Ce n'est pas seulement pour le style, mais aussi pour la confidentialité des données et un contrôle local extrême.
L'outil principal est EXO (GitHub : exo-explore/exo), qui prend en charge RDMA (Accès direct à la mémoire distante), permettant de fusionner la mémoire unifiée des 4 Mac en un immense pool de mémoire vidéo.
Liste du matériel : 4 Mac Studio (M3 Ultra, version 512 Go de mémoire), mémoire vidéo totale d'environ 2 To, connexion via Thunderbolt 5 (bande passante de 120 Gbps), le système nécessite macOS Tahoe 26.2 ou une version ultérieure.
Étape 1 : Activer le support RDMA
Sur chaque Mac :
- Éteindre le Mac, entrer en mode de récupération (maintenir le bouton d'alimentation, sélectionner "Options" > "Continuer")
- Ouvrir le Terminal, exécuter : bputil -a rdma
- Redémarrer le Mac
- Vérifier : systemprofiler SPThunderboltDataType pour vérifier que RDMA est activé
Étape 2 : Installer EXO
Installation de l'application macOS : télécharger EXO-version.dmg depuis GitHub, installer et exécuter. Ouvrir le Dashboard pour ajouter l'IP des autres Mac.
Installation du code source :
- Installer Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Étape 3 : Connexion physique et topologie
Ne pas utiliser le Wi-Fi pour le réseau ! Même le Wi-Fi 7 ne suffira pas. L'inférence d'un modèle de billions de paramètres est extrêmement sensible à la bande passante. Veuillez utiliser un câble Thunderbolt 5, en désignant un Mac comme nœud principal (Master) et les trois autres comme nœuds de travail (Worker). Une topologie en étoile ou en chaîne est recommandée.
Dans le Dashboard EXO, vous devriez voir les 4 appareils en ligne, avec un pool de mémoire total affiché de 2048 Go.
Étape 4 : Télécharger et exécuter la version communautaire de MLX Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Démarrer le moteur d'inférence :
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Analyse de la commande :
- --model : pointe vers le répertoire du modèle
- --quant 4 : utilise une quantification 4 bits pour réduire l'utilisation de la mémoire
- --shards auto : EXO divise automatiquement le modèle de manière intelligente
- --engine mlx : utilise le GPU à 76 cœurs et le Neural Engine du M3 Ultra pour l'inférence
Résultat final et tests
Lorsque le terminal affiche "Prêt", vous avez votre propre supercalculateur IA.
Phase de pré-remplissage : les ventilateurs des 4 Mac commencent à accélérer légèrement (grâce à l'efficacité énergétique du M3 Ultra, ils ne vont pas décoller).
Phase de génération : les tokens apparaissent un par un.
Vitesse : bien que cela ne puisse pas rivaliser avec un cluster H100, grâce au soutien RDMA de Thunderbolt 5, la vitesse de génération des tokens peut atteindre 17-28 tokens/s. Pour un modèle de billions de paramètres, c'est tout à fait interactif !
Conclusion
Cette solution n'est certainement pas bon marché, mais elle prouve qu'avec l'effort de la communauté open source et d'Apple Silicon, l'avenir de l'IA décentralisée est en train d'arriver. Nous n'avons pas besoin d'envoyer nos données aux géants du cloud, en utilisant les appareils à notre disposition, nous pouvons construire un puissant cluster d'inférence privé.

