Coût seulement 300 000 ? Guide de déploiement local de l'IA personnelle Kimi-K2.5 avec 4 Mac Studio 512 Go

Dans cette ère de modèles massifs, nous avons tous un rêve : faire fonctionner localement un modèle de plusieurs billions de paramètres comparable à GPT-5. Mais la réalité est dure, un modèle de billions de paramètres nécessite une quantité massive de mémoire vidéo, même avec une quantification 4 bits. Les H100 et B200 sont trop chers, que faire ?

Aujourd'hui, JamePeng vous montre comment utiliser 4 Mac Studio M3 Ultra entièrement équipés, via EXO+MLX et Thunderbolt 5, pour créer une supercalculatrice IA locale avec 2 To de mémoire unifiée ! L'objectif est simple : faire fonctionner localement le modèle Kimi-K2.5 de billions de paramètres.

Pourquoi se donner tant de mal ?

Ce n'est pas seulement pour le style, mais aussi pour la confidentialité des données et un contrôle local extrême.

L'outil principal est EXO (GitHub : exo-explore/exo), qui prend en charge RDMA (Accès direct à la mémoire distante), permettant de fusionner la mémoire unifiée des 4 Mac en un immense pool de mémoire vidéo.

Liste du matériel : 4 Mac Studio (M3 Ultra, version 512 Go de mémoire), mémoire vidéo totale d'environ 2 To, connexion via Thunderbolt 5 (bande passante de 120 Gbps), le système nécessite macOS Tahoe 26.2 ou une version ultérieure.

Étape 1 : Activer le support RDMA

Sur chaque Mac :

Éteindre le Mac, entrer en mode de récupération (maintenir le bouton d'alimentation, sélectionner "Options" > "Continuer")
Ouvrir le Terminal, exécuter : bputil -a rdma
Redémarrer le Mac
Vérifier : systemprofiler SPThunderboltDataType pour vérifier que RDMA est activé

Thunderbolt 5 offre une bande passante de 120 Gbps, parfait pour le transfert de données.

Étape 2 : Installer EXO

Installation de l'application macOS : télécharger EXO-version.dmg depuis GitHub, installer et exécuter. Ouvrir le Dashboard pour ajouter l'IP des autres Mac.

Installation du code source :

Installer Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Étape 3 : Connexion physique et topologie

Ne pas utiliser le Wi-Fi pour le réseau ! Même le Wi-Fi 7 ne suffira pas. L'inférence d'un modèle de billions de paramètres est extrêmement sensible à la bande passante. Veuillez utiliser un câble Thunderbolt 5, en désignant un Mac comme nœud principal (Master) et les trois autres comme nœuds de travail (Worker). Une topologie en étoile ou en chaîne est recommandée.

Dans le Dashboard EXO, vous devriez voir les 4 appareils en ligne, avec un pool de mémoire total affiché de 2048 Go.

Étape 4 : Télécharger et exécuter la version communautaire de MLX Kimi-K2.5

Télécharger le modèle :

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Démarrer le moteur d'inférence :

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Analyse de la commande :

--model : pointe vers le répertoire du modèle
--quant 4 : utilise une quantification 4 bits pour réduire l'utilisation de la mémoire
--shards auto : EXO divise automatiquement le modèle de manière intelligente
--engine mlx : utilise le GPU à 76 cœurs et le Neural Engine du M3 Ultra pour l'inférence

Résultat final et tests

Lorsque le terminal affiche "Prêt", vous avez votre propre supercalculateur IA.

Phase de pré-remplissage : les ventilateurs des 4 Mac commencent à accélérer légèrement (grâce à l'efficacité énergétique du M3 Ultra, ils ne vont pas décoller).

Phase de génération : les tokens apparaissent un par un.

Vitesse : bien que cela ne puisse pas rivaliser avec un cluster H100, grâce au soutien RDMA de Thunderbolt 5, la vitesse de génération des tokens peut atteindre 17-28 tokens/s. Pour un modèle de billions de paramètres, c'est tout à fait interactif !

Conclusion

Cette solution n'est certainement pas bon marché, mais elle prouve qu'avec l'effort de la communauté open source et d'Apple Silicon, l'avenir de l'IA décentralisée est en train d'arriver. Nous n'avons pas besoin d'envoyer nos données aux géants du cloud, en utilisant les appareils à notre disposition, nous pouvons construire un puissant cluster d'inférence privé.

Coût seulement 300 000 ? Guide de déploiement local de l'IA personnelle Kimi-K2.5 avec 4 Mac Studio 512 Go

Coût seulement 300 000 ? Guide de déploiement local de l'IA personnelle Kimi-K2.5 avec 4 Mac Studio 512 Go

Pourquoi se donner tant de mal ?

Étape 1 : Activer le support RDMA

Étape 2 : Installer EXO

Étape 3 : Connexion physique et topologie

Étape 4 : Télécharger et exécuter la version communautaire de MLX Kimi-K2.5

Résultat final et tests

Conclusion

You Might Also Like

Guide de modification de Claude Code Buddy : Comment obtenir un animal de compagnie légendaire brillant

Obsidian a lancé Defuddle, élevant Obsidian Web Clipper à un nouveau niveau

OpenAI annonce soudainement "trois en un" : fusion du navigateur + programmation + ChatGPT, admettant en interne avoir pris le mauvais chemin l'année dernière

2026, ne plus se forcer à être "discipliné" ! Faites ces 8 petites choses, la santé viendra naturellement

Ces mamans qui luttent pour perdre du poids mais n'y parviennent pas, tombent sûrement ici

Guide de fonctionnement stable de l'AI Browser 24 heures sur 24