¿Solo 300,000? Guía para implementar localmente el modelo Kimi-K2.5 de un billón de parámetros en cuatro Mac Studio de 512GB
¿Solo 300,000? Guía para implementar localmente el modelo Kimi-K2.5 de un billón de parámetros en cuatro Mac Studio de 512GB
En esta era de grandes modelos, todos tenemos un sueño: ejecutar localmente un modelo de un billón de parámetros que compita con el nivel de GPT-5. Pero la realidad es dura; un modelo de un billón de parámetros, incluso con cuantización de 4 bits, requiere una enorme cantidad de memoria de video. H100 y B200 son demasiado caros, ¿qué hacer si no se pueden comprar?
Hoy, JamePeng nos llevará a usar cuatro Mac Studio M3 Ultra completamente equipadas, a través de EXO+MLX y Thunderbolt 5, para crear una supercomputadora de IA local con 2TB de memoria unificada. El objetivo es uno solo: ejecutar localmente el modelo Kimi-K2.5 de un billón de parámetros.
¿Por qué hacer todo esto?
No solo por la novedad, sino también por la privacidad de los datos y el control local extremo.
El arma principal es EXO (GitHub: exo-explore/exo), que soporta RDMA (Acceso directo a memoria remota), permitiendo fusionar la memoria unificada de las cuatro Mac en un enorme pool de memoria de video.
Lista de hardware: 4 Mac Studio (M3 Ultra, versión de 512GB de memoria), con un total de aproximadamente 2TB de memoria de video, conectadas usando Thunderbolt 5 (ancho de banda de 120Gbps), el sistema necesita macOS Tahoe 26.2 o una versión más reciente.
Paso 1: Habilitar soporte RDMA
Operar en cada Mac:
- Apagar la Mac, entrar en modo de recuperación (mantener presionado el botón de encendido, seleccionar "Opciones" > "Continuar")
- Abrir Terminal, ejecutar: bputil -a rdma
- Reiniciar la Mac
- Verificar: systemprofiler SPThunderboltDataType para comprobar que RDMA esté habilitado
Paso 2: Instalar EXO
Instalación de la aplicación macOS: descargar EXO-version.dmg desde GitHub e instalar. Abrir el Dashboard y agregar la IP de otras Mac.
Instalación desde el código fuente:
- Instalar Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Paso 3: Conexión física y topología
¡No uses Wi-Fi para la red! Ni siquiera Wi-Fi 7 funcionará. La inferencia de un modelo de un billón de parámetros es extremadamente sensible al ancho de banda. Usa un cable Thunderbolt 5, designa una Mac como nodo maestro (Master) y las otras tres como nodos de trabajo (Worker). Se recomienda una topología estelar o conexión en cadena.
En el Dashboard de EXO, deberías ver las 4 dispositivos completamente en línea, con un pool de memoria total que muestra 2048 GB.
Paso 4: Descargar y ejecutar la versión comunitaria de MLX Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Iniciar el motor de inferencia:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Análisis del comando:
- --model: apunta al directorio del modelo
- --quant 4: utiliza cuantización de 4 bits para reducir el uso de memoria
- --shards auto: EXO divide automáticamente el modelo de manera inteligente
- --engine mlx: llama a la GPU de 76 núcleos y al Neural Engine del M3 Ultra para la inferencia
Efecto final y pruebas reales
Cuando la terminal muestra "Listo", ya tienes tu propia supercomputadora de IA.
Fase de prellenado (Prefill): los ventiladores de las 4 Mac comienzan a acelerar ligeramente (gracias a la eficiencia energética del M3 Ultra, no se dispararán).
Fase de generación (Generation): los tokens aparecen uno tras otro.
Velocidad: aunque no se puede comparar con un clúster H100, gracias al soporte RDMA de Thunderbolt 5, la velocidad de generación de tokens puede alcanzar de 17 a 28 tokens/s. ¡Esto es completamente interactivo para un modelo de un billón de parámetros!
Resumen
Este conjunto de soluciones no es barato, pero demuestra que, gracias a Apple Silicon y al esfuerzo de la comunidad de código abierto, el futuro de la IA descentralizada está llegando. No necesitamos enviar datos a los gigantes de la nube; utilizando los dispositivos a nuestro alcance, podemos construir un poderoso clúster de inferencia privado.

