Custa apenas 300 mil? Guia de implantação local do supercomputador pessoal de IA Kimi-K2.5 com um trilhão de parâmetros em 4 Macs Studio de 512GB
Custa apenas 300 mil? Guia de implantação local do supercomputador pessoal de IA Kimi-K2.5 com um trilhão de parâmetros em 4 Macs Studio de 512GB
Neste era de explosão de grandes modelos, todos nós temos um sonho: executar localmente um modelo de um trilhão de parâmetros que rivalize com o nível do GPT-5. Mas a realidade é cruel, modelos de um trilhão de parâmetros, mesmo com quantização de 4 bits, requerem uma enorme quantidade de memória de vídeo. H100 e B200 são muito caros, o que fazer se não podemos comprar?
Hoje, JamePeng nos leva a usar 4 Macs Studio M3 Ultra totalmente equipados, através do EXO+MLX e Thunderbolt 5, para criar um supercomputador de IA local com 2TB de memória unificada! O objetivo é único: executar localmente o modelo de grande escala Kimi-K2.5 com um trilhão de parâmetros.
Por que fazer tudo isso?
Não é apenas para ser legal, mas também para a privacidade dos dados e controle local extremo.
A arma principal é o EXO (GitHub: exo-explore/exo), que suporta RDMA (Acesso Direto à Memória Remota), permitindo que a memória unificada de 4 Macs se fundam em um enorme pool de memória de vídeo.
Lista de hardware: 4 Macs Studio (M3 Ultra, versão com 512GB de memória), totalizando cerca de 2TB de memória de vídeo, conectados usando Thunderbolt 5 (largura de banda de 120Gbps), o sistema precisa ser macOS Tahoe 26.2 ou versão mais recente.
Passo 1: Ativar suporte RDMA
Operações em cada Mac:
- Desligue o Mac, entre no modo de recuperação (pressione o botão de energia, selecione "Opções" > "Continuar")
- Abra o Terminal e execute: bputil -a rdma
- Reinicie o Mac
- Verifique: systemprofiler SPThunderboltDataType para checar se o RDMA está ativado
Passo 2: Instalar o EXO
Instalação do aplicativo macOS: baixe EXO-version.dmg do GitHub e instale-o. Abra o Dashboard e adicione o IP de outros Macs.
Instalação do código-fonte:
- Instale o Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Passo 3: Conexão física e topologia
Não use Wi-Fi para a rede! Mesmo o Wi-Fi 7 não é suficiente. A inferência de modelos de um trilhão é extremamente sensível à largura de banda. Use cabos Thunderbolt 5, configure um Mac como nó mestre (Master) e os outros três como nós de trabalho (Worker). Recomenda-se uma topologia em estrela ou conexão em cadeia.
No Dashboard do EXO, você deve ver os 4 dispositivos online, com o pool total de memória exibido como 2048 GB.
Passo 4: Baixar e executar a versão comunitária do MLX Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Inicie o mecanismo de inferência:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Análise do comando:
- --model: aponta para o diretório do modelo
- --quant 4: usa quantização de 4 bits para reduzir o uso de memória
- --shards auto: o EXO divide automaticamente o modelo de forma inteligente
- --engine mlx: utiliza a GPU de 76 núcleos e o Neural Engine do M3 Ultra para inferência
Resultado final e testes
Quando o terminal exibir "Ready", você terá seu próprio supercomputador de IA.
Fase de pré-preenchimento (Prefill): os ventiladores dos 4 Macs começam a acelerar levemente (graças à eficiência energética do M3 Ultra, não vão decolar).
Fase de geração (Generation): Tokens aparecem um após o outro.
Velocidade: embora não se compare a um cluster H100, graças ao suporte RDMA do Thunderbolt 5, a velocidade de geração de Tokens pode atingir de 17 a 28 tokens/s. Isso é totalmente interativo para um modelo de um trilhão de parâmetros!
Resumo
Este conjunto de soluções definitivamente não é barato, mas prova que, com o esforço da Apple Silicon + comunidade de código aberto, o futuro da IA descentralizada está chegando. Não precisamos enviar dados para gigantes da nuvem; usando os dispositivos à nossa disposição, podemos construir poderosos clusters de inferência privados.

