Custa apenas 300 mil? Guia de implantação local do modelo Kimi-K2.5 com um supercomputador AI pessoal em 4 Mac Studios de 512GB
Custa apenas 300 mil? Guia de implantação local do modelo Kimi-K2.5 com um supercomputador AI pessoal em 4 Mac Studios de 512GB
Neste era de explosão de grandes modelos, todos nós temos um sonho: executar localmente um modelo de trilhões de parâmetros que rivalize com o nível do GPT-5. Mas a realidade é cruel, modelos de trilhões de parâmetros, mesmo com quantização de 4 bits, requerem uma enorme quantidade de memória de vídeo. H100 e B200 são muito caros, e se não podemos comprar, o que fazer?
Hoje, JamePeng nos leva a usar 4 Mac Studio M3 Ultra totalmente equipados, através do EXO+MLX e Thunderbolt 5, para criar um supercomputador AI local com 2TB de memória unificada! O objetivo é único: executar localmente o modelo Kimi-K2.5 de trilhões de parâmetros.
Por que fazer tudo isso?
Não é apenas para ser legal, mas também para a privacidade dos dados e controle local extremo.
A arma principal é o EXO (GitHub: exo-explore/exo), que suporta RDMA (Acesso Direto à Memória Remota), permitindo que a memória unificada das 4 Macs se fundam em um enorme pool de memória de vídeo.
Lista de hardware: 4 Macs Studio (M3 Ultra, versão de 512GB de memória), totalizando cerca de 2TB de memória de vídeo, conectados via Thunderbolt 5 (largura de banda de 120Gbps), o sistema precisa ser macOS Tahoe 26.2 ou versão mais recente.
Passo 1: Ativar suporte a RDMA
Operar em cada Mac:
- Desligue o Mac e entre no modo de recuperação (pressione o botão de energia, selecione "Opções" > "Continuar")
- Abra o Terminal e execute: bputil -a rdma
- Reinicie o Mac
- Verifique: systemprofiler SPThunderboltDataType para confirmar que o RDMA está ativado
Passo 2: Instalar o EXO
Instalação do aplicativo macOS: baixe EXO-version.dmg do GitHub e instale-o. Abra o Dashboard e adicione o IP de outros Macs.
Instalação do código-fonte:
- Instale o Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Passo 3: Conexão física e topologia
Não use Wi-Fi para a rede! Mesmo o Wi-Fi 7 não é suficiente. A inferência de modelos de trilhões é extremamente sensível à largura de banda. Use cabos Thunderbolt 5, configure um Mac como nó mestre (Master) e os outros três como nós de trabalho (Worker). Recomenda-se uma topologia em estrela ou conexão em cadeia.
No Dashboard do EXO, você deve ver os 4 dispositivos online, com o total do pool de memória exibido como 2048 GB.
Passo 4: Baixar e executar a versão comunitária do MLX Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Inicie o mecanismo de inferência:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Análise do comando:
- --model: aponta para o diretório do modelo
- --quant 4: usa quantização de 4 bits para reduzir o uso de memória
- --shards auto: o EXO divide automaticamente o modelo
- --engine mlx: chama a GPU de 76 núcleos e o Neural Engine do M3 Ultra para inferência
Resultado final e testes
Quando o terminal exibir "Pronto", você terá seu próprio supercomputador AI.
Fase de pré-preenchimento (Prefill): os ventiladores dos 4 Macs começam a acelerar levemente (graças à eficiência energética do M3 Ultra, não vão decolar).
Fase de geração (Generation): Tokens aparecem um após o outro.
Velocidade: embora não se compare a um cluster H100, graças ao suporte RDMA do Thunderbolt 5, a velocidade de geração de tokens pode alcançar de 17 a 28 tokens/s. Isso é totalmente interativo para um modelo de trilhões de parâmetros!
Resumo
Este conjunto de soluções definitivamente não é barato, mas prova que, com o esforço da Apple Silicon + comunidade de código aberto, o futuro da IA descentralizada está chegando. Não precisamos enviar dados para gigantes da nuvem; usando os dispositivos que temos à mão, podemos construir poderosos clusters de inferência privados.

