¿Solo 300,000? Guía de implementación local de Kimi-K2.5 con un superordenador AI personal en 4 Mac Studio de 512GB

En esta era de locura por los grandes modelos, todos tenemos un sueño: ejecutar localmente un modelo de billones de parámetros comparable al nivel de GPT-5. Pero la realidad es dura, los modelos de billones de parámetros, incluso con cuantificación de 4 bits, requieren una cantidad masiva de memoria de video. H100 y B200 son demasiado caros, ¿qué hacer si no se puede comprar?

Hoy, JamePeng nos lleva a construir un superordenador AI local con 4 Mac Studio M3 Ultra completamente equipados, utilizando EXO+MLX y Thunderbolt 5, creando a la fuerza una máquina con 2TB de memoria unificada. El objetivo es uno solo: ejecutar localmente el gran modelo de billones de parámetros Kimi-K2.5.

¿Por qué hacer todo esto?

No solo por lo genial, sino también por la privacidad de los datos y el control local extremo.

El arma principal es EXO (GitHub: exo-explore/exo), que soporta RDMA (Acceso directo a memoria remota), permitiendo fusionar la memoria unificada de las 4 Mac en un enorme pool de memoria de video.

Lista de hardware: 4 Mac Studio (M3 Ultra, versión de 512GB de memoria), con una memoria de video total de aproximadamente 2TB, conectadas usando Thunderbolt 5 (ancho de banda de 120Gbps), el sistema necesita macOS Tahoe 26.2 o una versión más reciente.

Paso 1: Habilitar soporte RDMA

Operar en cada Mac:

Apagar la Mac, entrar en modo de recuperación (mantener presionado el botón de encendido, seleccionar "Opciones" > "Continuar")
Abrir Terminal, ejecutar: bputil -a rdma
Reiniciar la Mac
Verificar: systemprofiler SPThunderboltDataType para comprobar que RDMA está habilitado

Thunderbolt 5 proporciona un ancho de banda de 120Gbps, soportando perfectamente la transferencia de datos.

Paso 2: Instalar EXO

Instalación de la aplicación macOS: descargar EXO-version.dmg desde GitHub, instalar y ejecutar. Abrir el Dashboard para agregar la IP de otras Mac.

Instalación del código fuente:

Instalar Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Paso 3: Conexión física y topología

¡No uses Wi-Fi para la red! Ni siquiera Wi-Fi 7 funciona. La inferencia de modelos de billones es extremadamente sensible al ancho de banda. Utiliza un cable Thunderbolt 5, designando una Mac como nodo maestro (Master) y las otras tres como nodos de trabajo (Worker). Se recomienda una topología estelar o conexión en cadena.

En el EXO Dashboard, deberías ver que los 4 dispositivos están en línea, y el pool de memoria total debería mostrar 2048 GB.

Paso 4: Descargar y ejecutar la versión comunitaria de MLX Kimi-K2.5

Descargar el modelo:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Iniciar el motor de inferencia:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Análisis del comando:

--model: apunta al directorio del modelo
--quant 4: utiliza cuantificación de 4 bits para reducir el uso de memoria
--shards auto: EXO divide automáticamente el modelo de manera inteligente
--engine mlx: utiliza la GPU de 76 núcleos y el Neural Engine del M3 Ultra para la inferencia

Efecto final y pruebas reales

Cuando la terminal muestra "Listo", ya tienes tu propio superordenador AI.

Fase de prellenado (Prefill): los ventiladores de las 4 Mac comienzan a acelerar ligeramente (gracias a la eficiencia energética del M3 Ultra, no despegarán).

Fase de generación (Generation): los tokens aparecen uno tras otro.

Velocidad: aunque no se puede comparar con un clúster H100, gracias al soporte RDMA de Thunderbolt 5, la velocidad de generación de tokens puede alcanzar de 17 a 28 tokens/s. ¡Esto es completamente interactivo para un modelo de billones de parámetros!

Resumen

Este conjunto de soluciones no es barato, pero demuestra que, gracias al esfuerzo de Apple Silicon y la comunidad de código abierto, el futuro de la IA descentralizada está llegando. No necesitamos enviar datos a los gigantes de la nube; utilizando los dispositivos a nuestro alcance, podemos construir potentes clústeres de inferencia privados.

¿Solo 300,000? Guía de implementación local de Kimi-K2.5 con un superordenador AI personal en 4 Mac Studio de 512GB

¿Solo 300,000? Guía de implementación local de Kimi-K2.5 con un superordenador AI personal en 4 Mac Studio de 512GB

¿Por qué hacer todo esto?

Paso 1: Habilitar soporte RDMA

Paso 2: Instalar EXO

Paso 3: Conexión física y topología

Paso 4: Descargar y ejecutar la versión comunitaria de MLX Kimi-K2.5

Efecto final y pruebas reales

Resumen

You Might Also Like

Guía de Modificación de Claude Code Buddy: Cómo Obtener Mascotas Legendarias Brillantes

Obsidian lanzó Defuddle, llevando Obsidian Web Clipper a un nuevo nivel

OpenAI anuncia de repente 'tres en uno': fusión de navegador + programación + ChatGPT, admitiendo errores en el último año

2026, ¡no más forzarme a ser 'disciplinado'! Haz estas 8 pequeñas cosas y la salud vendrá naturalmente

Las mamás que se esfuerzan por perder peso y no lo logran, definitivamente están atrapadas aquí

Guía para el funcionamiento estable del navegador AI 24 horas