¿Solo 300,000? Guía de implementación local de Kimi-K2.5 con un superordenador AI personal en 4 Mac Studio de 512GB
¿Solo 300,000? Guía de implementación local de Kimi-K2.5 con un superordenador AI personal en 4 Mac Studio de 512GB
En esta era de locura por los grandes modelos, todos tenemos un sueño: ejecutar localmente un modelo de billones de parámetros comparable al nivel de GPT-5. Pero la realidad es dura, los modelos de billones de parámetros, incluso con cuantificación de 4 bits, requieren una cantidad masiva de memoria de video. H100 y B200 son demasiado caros, ¿qué hacer si no se puede comprar?
Hoy, JamePeng nos lleva a construir un superordenador AI local con 4 Mac Studio M3 Ultra completamente equipados, utilizando EXO+MLX y Thunderbolt 5, creando a la fuerza una máquina con 2TB de memoria unificada. El objetivo es uno solo: ejecutar localmente el gran modelo de billones de parámetros Kimi-K2.5.
¿Por qué hacer todo esto?
No solo por lo genial, sino también por la privacidad de los datos y el control local extremo.
El arma principal es EXO (GitHub: exo-explore/exo), que soporta RDMA (Acceso directo a memoria remota), permitiendo fusionar la memoria unificada de las 4 Mac en un enorme pool de memoria de video.
Lista de hardware: 4 Mac Studio (M3 Ultra, versión de 512GB de memoria), con una memoria de video total de aproximadamente 2TB, conectadas usando Thunderbolt 5 (ancho de banda de 120Gbps), el sistema necesita macOS Tahoe 26.2 o una versión más reciente.
Paso 1: Habilitar soporte RDMA
Operar en cada Mac:
- Apagar la Mac, entrar en modo de recuperación (mantener presionado el botón de encendido, seleccionar "Opciones" > "Continuar")
- Abrir Terminal, ejecutar: bputil -a rdma
- Reiniciar la Mac
- Verificar: systemprofiler SPThunderboltDataType para comprobar que RDMA está habilitado
Paso 2: Instalar EXO
Instalación de la aplicación macOS: descargar EXO-version.dmg desde GitHub, instalar y ejecutar. Abrir el Dashboard para agregar la IP de otras Mac.
Instalación del código fuente:
- Instalar Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Paso 3: Conexión física y topología
¡No uses Wi-Fi para la red! Ni siquiera Wi-Fi 7 funciona. La inferencia de modelos de billones es extremadamente sensible al ancho de banda. Utiliza un cable Thunderbolt 5, designando una Mac como nodo maestro (Master) y las otras tres como nodos de trabajo (Worker). Se recomienda una topología estelar o conexión en cadena.
En el EXO Dashboard, deberías ver que los 4 dispositivos están en línea, y el pool de memoria total debería mostrar 2048 GB.
Paso 4: Descargar y ejecutar la versión comunitaria de MLX Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Iniciar el motor de inferencia:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Análisis del comando:
- --model: apunta al directorio del modelo
- --quant 4: utiliza cuantificación de 4 bits para reducir el uso de memoria
- --shards auto: EXO divide automáticamente el modelo de manera inteligente
- --engine mlx: utiliza la GPU de 76 núcleos y el Neural Engine del M3 Ultra para la inferencia
Efecto final y pruebas reales
Cuando la terminal muestra "Listo", ya tienes tu propio superordenador AI.
Fase de prellenado (Prefill): los ventiladores de las 4 Mac comienzan a acelerar ligeramente (gracias a la eficiencia energética del M3 Ultra, no despegarán).
Fase de generación (Generation): los tokens aparecen uno tras otro.
Velocidad: aunque no se puede comparar con un clúster H100, gracias al soporte RDMA de Thunderbolt 5, la velocidad de generación de tokens puede alcanzar de 17 a 28 tokens/s. ¡Esto es completamente interactivo para un modelo de billones de parámetros!
Resumen
Este conjunto de soluciones no es barato, pero demuestra que, gracias al esfuerzo de Apple Silicon y la comunidad de código abierto, el futuro de la IA descentralizada está llegando. No necesitamos enviar datos a los gigantes de la nube; utilizando los dispositivos a nuestro alcance, podemos construir potentes clústeres de inferencia privados.

