Coûte seulement 300 000 ? Guide de déploiement local de l'IA personnelle sur 4 Mac Studio 512 Go avec le modèle Kimi-K2.5 à un trillion de paramètres
Coûte seulement 300 000 ? Guide de déploiement local de l'IA personnelle sur 4 Mac Studio 512 Go avec le modèle Kimi-K2.5 à un trillion de paramètres
Dans cette ère de modèles massifs, nous avons tous un rêve : faire fonctionner localement un modèle à un trillion de paramètres comparable à GPT-5. Mais la réalité est dure, un modèle à un trillion de paramètres nécessite une quantité massive de mémoire vidéo, même avec une quantification 4 bits. Les H100 et B200 sont trop chers, que faire ?
Aujourd'hui, JamePeng vous montre comment utiliser 4 Mac Studio M3 Ultra entièrement équipés, via EXO+MLX et Thunderbolt 5, pour créer une supercalculatrice IA locale avec 2 To de mémoire unifiée ! L'objectif est simple : faire fonctionner localement le modèle Kimi-K2.5 à un trillion de paramètres.
Pourquoi tant de complications ?
Ce n'est pas seulement pour le style, mais aussi pour la confidentialité des données et un contrôle local extrême.
L'arme principale est EXO (GitHub : exo-explore/exo), qui supporte RDMA (Accès direct à la mémoire distante), permettant de fusionner la mémoire unifiée des 4 Mac en un énorme pool de mémoire vidéo.
Liste du matériel : 4 Mac Studio (M3 Ultra, version 512 Go), mémoire vidéo totale d'environ 2 To, connexion via Thunderbolt 5 (bande passante de 120 Gbps), le système nécessite macOS Tahoe 26.2 ou une version plus récente.
Étape 1 : Activer le support RDMA
Sur chaque Mac :
- Éteignez le Mac, entrez en mode de récupération (maintenez le bouton d'alimentation, sélectionnez "Options" > "Continuer")
- Ouvrez le Terminal, exécutez : bputil -a rdma
- Redémarrez le Mac
- Vérifiez : systemprofiler SPThunderboltDataType pour vérifier que RDMA est activé
Étape 2 : Installer EXO
Installation de l'application macOS : téléchargez EXO-version.dmg depuis GitHub, installez et exécutez. Ouvrez le Dashboard pour ajouter l'IP des autres Mac.
Installation du code source :
- Installez Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Étape 3 : Connexion physique et topologie
Ne pas utiliser le Wi-Fi pour le réseau ! Même le Wi-Fi 7 ne suffit pas. L'inférence d'un modèle à un trillion de paramètres est extrêmement sensible à la bande passante. Veuillez utiliser un câble Thunderbolt 5, en désignant un Mac comme nœud principal (Master) et les trois autres comme nœuds de travail (Worker). Une topologie en étoile ou en chaîne est recommandée.
Dans le Dashboard EXO, vous devriez voir les 4 appareils en ligne, avec un pool de mémoire total affiché de 2048 Go.
Étape 4 : Télécharger et exécuter la version communautaire de MLX Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Démarrer le moteur d'inférence :
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Analyse de la commande :
- --model : pointe vers le répertoire du modèle
- --quant 4 : utilise une quantification 4 bits pour réduire l'utilisation de la mémoire
- --shards auto : EXO divise automatiquement le modèle de manière intelligente
- --engine mlx : utilise le GPU à 76 cœurs et le Neural Engine du M3 Ultra pour l'inférence
Résultat final et tests réels
Lorsque le terminal affiche "Prêt", vous avez votre propre supercalculateur IA.
Phase de pré-remplissage : les ventilateurs des 4 Mac commencent à accélérer légèrement (grâce à l'efficacité énergétique du M3 Ultra, ils ne vont pas s'envoler).
Phase de génération : les tokens apparaissent un par un.
Vitesse : bien que cela ne puisse pas rivaliser avec un cluster H100, grâce au soutien RDMA de Thunderbolt 5, la vitesse de génération des tokens peut atteindre 17-28 tokens/s. Pour un modèle à un trillion de paramètres, c'est tout à fait interactif !
Conclusion
Cette solution n'est certainement pas bon marché, mais elle prouve qu'avec l'Apple Silicon et les efforts de la communauté open source, l'avenir de l'IA décentralisée est en route. Nous n'avons pas besoin d'envoyer nos données aux géants du cloud, en utilisant les appareils à notre disposition, nous pouvons construire un puissant cluster d'inférence privé.

