¿Solo 300,000? Guía para implementar localmente el modelo Kimi-K2.5 de un billón de parámetros en cuatro Mac Studio de 512GB

En esta era de grandes modelos, todos tenemos un sueño: ejecutar localmente un modelo de un billón de parámetros que compita con el nivel de GPT-5. Pero la realidad es dura; un modelo de un billón de parámetros, incluso con cuantización de 4 bits, requiere una enorme cantidad de memoria de video. H100 y B200 son demasiado caros, ¿qué hacer si no se pueden comprar?

Hoy, JamePeng nos llevará a usar cuatro Mac Studio M3 Ultra completamente equipadas, a través de EXO+MLX y Thunderbolt 5, para crear una supercomputadora de IA local con 2TB de memoria unificada. El objetivo es uno solo: ejecutar localmente el modelo Kimi-K2.5 de un billón de parámetros.

¿Por qué hacer todo esto?

No solo por la novedad, sino también por la privacidad de los datos y el control local extremo.

El arma principal es EXO (GitHub: exo-explore/exo), que soporta RDMA (Acceso directo a memoria remota), permitiendo fusionar la memoria unificada de las cuatro Mac en un enorme pool de memoria de video.

Lista de hardware: 4 Mac Studio (M3 Ultra, versión de 512GB de memoria), con un total de aproximadamente 2TB de memoria de video, conectadas usando Thunderbolt 5 (ancho de banda de 120Gbps), el sistema necesita macOS Tahoe 26.2 o una versión más reciente.

Paso 1: Habilitar soporte RDMA

Operar en cada Mac:

Apagar la Mac, entrar en modo de recuperación (mantener presionado el botón de encendido, seleccionar "Opciones" > "Continuar")
Abrir Terminal, ejecutar: bputil -a rdma
Reiniciar la Mac
Verificar: systemprofiler SPThunderboltDataType para comprobar que RDMA esté habilitado

Thunderbolt 5 proporciona un ancho de banda de 120Gbps, soportando perfectamente la transferencia de datos.

Paso 2: Instalar EXO

Instalación de la aplicación macOS: descargar EXO-version.dmg desde GitHub e instalar. Abrir el Dashboard y agregar la IP de otras Mac.

Instalación desde el código fuente:

Instalar Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Paso 3: Conexión física y topología

¡No uses Wi-Fi para la red! Ni siquiera Wi-Fi 7 funcionará. La inferencia de un modelo de un billón de parámetros es extremadamente sensible al ancho de banda. Usa un cable Thunderbolt 5, designa una Mac como nodo maestro (Master) y las otras tres como nodos de trabajo (Worker). Se recomienda una topología estelar o conexión en cadena.

En el Dashboard de EXO, deberías ver las 4 dispositivos completamente en línea, con un pool de memoria total que muestra 2048 GB.

Paso 4: Descargar y ejecutar la versión comunitaria de MLX Kimi-K2.5

Descargar el modelo:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Iniciar el motor de inferencia:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Análisis del comando:

--model: apunta al directorio del modelo
--quant 4: utiliza cuantización de 4 bits para reducir el uso de memoria
--shards auto: EXO divide automáticamente el modelo de manera inteligente
--engine mlx: llama a la GPU de 76 núcleos y al Neural Engine del M3 Ultra para la inferencia

Efecto final y pruebas reales

Cuando la terminal muestra "Listo", ya tienes tu propia supercomputadora de IA.

Fase de prellenado (Prefill): los ventiladores de las 4 Mac comienzan a acelerar ligeramente (gracias a la eficiencia energética del M3 Ultra, no se dispararán).

Fase de generación (Generation): los tokens aparecen uno tras otro.

Velocidad: aunque no se puede comparar con un clúster H100, gracias al soporte RDMA de Thunderbolt 5, la velocidad de generación de tokens puede alcanzar de 17 a 28 tokens/s. ¡Esto es completamente interactivo para un modelo de un billón de parámetros!

Resumen

Este conjunto de soluciones no es barato, pero demuestra que, gracias a Apple Silicon y al esfuerzo de la comunidad de código abierto, el futuro de la IA descentralizada está llegando. No necesitamos enviar datos a los gigantes de la nube; utilizando los dispositivos a nuestro alcance, podemos construir un poderoso clúster de inferencia privado.

¿Solo 300,000? Guía para implementar localmente el modelo Kimi-K2.5 de un billón de parámetros en cuatro Mac Studio de 512GB

¿Solo 300,000? Guía para implementar localmente el modelo Kimi-K2.5 de un billón de parámetros en cuatro Mac Studio de 512GB

¿Por qué hacer todo esto?

Paso 1: Habilitar soporte RDMA

Paso 2: Instalar EXO

Paso 3: Conexión física y topología

Paso 4: Descargar y ejecutar la versión comunitaria de MLX Kimi-K2.5

Efecto final y pruebas reales

Resumen

You Might Also Like

Guía de modificación de Claude Code Buddy: Cómo obtener mascotas legendarias brillantes

Obsidian lanzó Defuddle, llevando Obsidian Web Clipper a un nuevo nivel

OpenAI repentinamente anuncia "tres en uno": fusión de navegador + programación + ChatGPT, admitiendo internamente que se equivocaron el año pasado

2026, ¡no más forzarme a ser 'disciplinado'! Haz estas 8 pequeñas cosas y la salud vendrá naturalmente

Las mamás que se esfuerzan por adelgazar y no lo logran, definitivamente caen aquí

Guía para el funcionamiento estable del navegador AI 24 horas