Coûte seulement 300 000 ? Guide de déploiement local de l'IA personnelle sur 4 Mac Studio 512 Go avec le modèle Kimi-K2.5 à un trillion de paramètres

Dans cette ère de modèles massifs, nous avons tous un rêve : faire fonctionner localement un modèle à un trillion de paramètres comparable à GPT-5. Mais la réalité est dure, un modèle à un trillion de paramètres nécessite une quantité massive de mémoire vidéo, même avec une quantification 4 bits. Les H100 et B200 sont trop chers, que faire ?

Aujourd'hui, JamePeng vous montre comment utiliser 4 Mac Studio M3 Ultra entièrement équipés, via EXO+MLX et Thunderbolt 5, pour créer une supercalculatrice IA locale avec 2 To de mémoire unifiée ! L'objectif est simple : faire fonctionner localement le modèle Kimi-K2.5 à un trillion de paramètres.

Pourquoi tant de complications ?

Ce n'est pas seulement pour le style, mais aussi pour la confidentialité des données et un contrôle local extrême.

L'arme principale est EXO (GitHub : exo-explore/exo), qui supporte RDMA (Accès direct à la mémoire distante), permettant de fusionner la mémoire unifiée des 4 Mac en un énorme pool de mémoire vidéo.

Liste du matériel : 4 Mac Studio (M3 Ultra, version 512 Go), mémoire vidéo totale d'environ 2 To, connexion via Thunderbolt 5 (bande passante de 120 Gbps), le système nécessite macOS Tahoe 26.2 ou une version plus récente.

Étape 1 : Activer le support RDMA

Sur chaque Mac :

Éteignez le Mac, entrez en mode de récupération (maintenez le bouton d'alimentation, sélectionnez "Options" > "Continuer")
Ouvrez le Terminal, exécutez : bputil -a rdma
Redémarrez le Mac
Vérifiez : systemprofiler SPThunderboltDataType pour vérifier que RDMA est activé

Thunderbolt 5 offre une bande passante de 120 Gbps, parfait pour le transfert de données.

Étape 2 : Installer EXO

Installation de l'application macOS : téléchargez EXO-version.dmg depuis GitHub, installez et exécutez. Ouvrez le Dashboard pour ajouter l'IP des autres Mac.

Installation du code source :

Installez Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Étape 3 : Connexion physique et topologie

Ne pas utiliser le Wi-Fi pour le réseau ! Même le Wi-Fi 7 ne suffit pas. L'inférence d'un modèle à un trillion de paramètres est extrêmement sensible à la bande passante. Veuillez utiliser un câble Thunderbolt 5, en désignant un Mac comme nœud principal (Master) et les trois autres comme nœuds de travail (Worker). Une topologie en étoile ou en chaîne est recommandée.

Dans le Dashboard EXO, vous devriez voir les 4 appareils en ligne, avec un pool de mémoire total affiché de 2048 Go.

Étape 4 : Télécharger et exécuter la version communautaire de MLX Kimi-K2.5

Télécharger le modèle :

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Démarrer le moteur d'inférence :

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Analyse de la commande :

--model : pointe vers le répertoire du modèle
--quant 4 : utilise une quantification 4 bits pour réduire l'utilisation de la mémoire
--shards auto : EXO divise automatiquement le modèle de manière intelligente
--engine mlx : utilise le GPU à 76 cœurs et le Neural Engine du M3 Ultra pour l'inférence

Résultat final et tests réels

Lorsque le terminal affiche "Prêt", vous avez votre propre supercalculateur IA.

Phase de pré-remplissage : les ventilateurs des 4 Mac commencent à accélérer légèrement (grâce à l'efficacité énergétique du M3 Ultra, ils ne vont pas s'envoler).

Phase de génération : les tokens apparaissent un par un.

Vitesse : bien que cela ne puisse pas rivaliser avec un cluster H100, grâce au soutien RDMA de Thunderbolt 5, la vitesse de génération des tokens peut atteindre 17-28 tokens/s. Pour un modèle à un trillion de paramètres, c'est tout à fait interactif !

Conclusion

Cette solution n'est certainement pas bon marché, mais elle prouve qu'avec l'Apple Silicon et les efforts de la communauté open source, l'avenir de l'IA décentralisée est en route. Nous n'avons pas besoin d'envoyer nos données aux géants du cloud, en utilisant les appareils à notre disposition, nous pouvons construire un puissant cluster d'inférence privé.

Coûte seulement 300 000 ? Guide de déploiement local de l'IA personnelle sur 4 Mac Studio 512 Go avec le modèle Kimi-K2.5 à un trillion de paramètres

Coûte seulement 300 000 ? Guide de déploiement local de l'IA personnelle sur 4 Mac Studio 512 Go avec le modèle Kimi-K2.5 à un trillion de paramètres

Pourquoi tant de complications ?

Étape 1 : Activer le support RDMA

Étape 2 : Installer EXO

Étape 3 : Connexion physique et topologie

Étape 4 : Télécharger et exécuter la version communautaire de MLX Kimi-K2.5

Résultat final et tests réels

Conclusion

You Might Also Like

Guide de modification de Claude Code Buddy : Comment obtenir un animal de compagnie légendaire brillant

Obsidian a lancé Defuddle, élevant Obsidian Web Clipper à un nouveau niveau

OpenAI annonce soudainement "trois en un" : fusion du navigateur + programmation + ChatGPT, admettant en interne avoir pris le mauvais chemin l'année dernière

2026, ne vous forcez plus à être 'discipliné' ! Faites ces 8 petites choses, la santé viendra naturellement

Ces mamans qui luttent pour perdre du poids mais n'y arrivent pas, sont certainement piégées ici

Guide de fonctionnement stable de l'AI Browser 24 heures sur 24