Custa apenas 300 mil? Guia de implantação local do supercomputador pessoal de IA Kimi-K2.5 com um trilhão de parâmetros em 4 Macs Studio de 512GB

2/26/2026
4 min read

Custa apenas 300 mil? Guia de implantação local do supercomputador pessoal de IA Kimi-K2.5 com um trilhão de parâmetros em 4 Macs Studio de 512GB

Neste era de explosão de grandes modelos, todos nós temos um sonho: executar localmente um modelo de um trilhão de parâmetros que rivalize com o nível do GPT-5. Mas a realidade é cruel, modelos de um trilhão de parâmetros, mesmo com quantização de 4 bits, requerem uma enorme quantidade de memória de vídeo. H100 e B200 são muito caros, o que fazer se não podemos comprar?

Hoje, JamePeng nos leva a usar 4 Macs Studio M3 Ultra totalmente equipados, através do EXO+MLX e Thunderbolt 5, para criar um supercomputador de IA local com 2TB de memória unificada! O objetivo é único: executar localmente o modelo de grande escala Kimi-K2.5 com um trilhão de parâmetros.

Por que fazer tudo isso?

Não é apenas para ser legal, mas também para a privacidade dos dados e controle local extremo.

A arma principal é o EXO (GitHub: exo-explore/exo), que suporta RDMA (Acesso Direto à Memória Remota), permitindo que a memória unificada de 4 Macs se fundam em um enorme pool de memória de vídeo.

Lista de hardware: 4 Macs Studio (M3 Ultra, versão com 512GB de memória), totalizando cerca de 2TB de memória de vídeo, conectados usando Thunderbolt 5 (largura de banda de 120Gbps), o sistema precisa ser macOS Tahoe 26.2 ou versão mais recente.

Passo 1: Ativar suporte RDMA

Operações em cada Mac:

  • Desligue o Mac, entre no modo de recuperação (pressione o botão de energia, selecione "Opções" > "Continuar")
  • Abra o Terminal e execute: bputil -a rdma
  • Reinicie o Mac
  • Verifique: systemprofiler SPThunderboltDataType para checar se o RDMA está ativado
O Thunderbolt 5 oferece largura de banda de 120Gbps, suportando perfeitamente a transferência de dados.

Passo 2: Instalar o EXO

Instalação do aplicativo macOS: baixe EXO-version.dmg do GitHub e instale-o. Abra o Dashboard e adicione o IP de outros Macs.

Instalação do código-fonte:

  • Instale o Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Passo 3: Conexão física e topologia

Não use Wi-Fi para a rede! Mesmo o Wi-Fi 7 não é suficiente. A inferência de modelos de um trilhão é extremamente sensível à largura de banda. Use cabos Thunderbolt 5, configure um Mac como nó mestre (Master) e os outros três como nós de trabalho (Worker). Recomenda-se uma topologia em estrela ou conexão em cadeia.

No Dashboard do EXO, você deve ver os 4 dispositivos online, com o pool total de memória exibido como 2048 GB.

Passo 4: Baixar e executar a versão comunitária do MLX Kimi-K2.5

  • Baixe o modelo:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Inicie o mecanismo de inferência:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Análise do comando:

    • --model: aponta para o diretório do modelo
    • --quant 4: usa quantização de 4 bits para reduzir o uso de memória
    • --shards auto: o EXO divide automaticamente o modelo de forma inteligente
    • --engine mlx: utiliza a GPU de 76 núcleos e o Neural Engine do M3 Ultra para inferência

    Resultado final e testes

    Quando o terminal exibir "Ready", você terá seu próprio supercomputador de IA.

    Fase de pré-preenchimento (Prefill): os ventiladores dos 4 Macs começam a acelerar levemente (graças à eficiência energética do M3 Ultra, não vão decolar).

    Fase de geração (Generation): Tokens aparecem um após o outro.

    Velocidade: embora não se compare a um cluster H100, graças ao suporte RDMA do Thunderbolt 5, a velocidade de geração de Tokens pode atingir de 17 a 28 tokens/s. Isso é totalmente interativo para um modelo de um trilhão de parâmetros!

    Resumo

    Este conjunto de soluções definitivamente não é barato, mas prova que, com o esforço da Apple Silicon + comunidade de código aberto, o futuro da IA descentralizada está chegando. Não precisamos enviar dados para gigantes da nuvem; usando os dispositivos à nossa disposição, podemos construir poderosos clusters de inferência privados.

    Published in Technology

    You Might Also Like