Custa apenas 300 mil? Guia de implantação local do modelo Kimi-K2.5 com um supercomputador AI pessoal em 4 Mac Studios de 512GB

Neste era de explosão de grandes modelos, todos nós temos um sonho: executar localmente um modelo de trilhões de parâmetros que rivalize com o nível do GPT-5. Mas a realidade é cruel, modelos de trilhões de parâmetros, mesmo com quantização de 4 bits, requerem uma enorme quantidade de memória de vídeo. H100 e B200 são muito caros, e se não podemos comprar, o que fazer?

Hoje, JamePeng nos leva a usar 4 Mac Studio M3 Ultra totalmente equipados, através do EXO+MLX e Thunderbolt 5, para criar um supercomputador AI local com 2TB de memória unificada! O objetivo é único: executar localmente o modelo Kimi-K2.5 de trilhões de parâmetros.

Por que fazer tudo isso?

Não é apenas para ser legal, mas também para a privacidade dos dados e controle local extremo.

A arma principal é o EXO (GitHub: exo-explore/exo), que suporta RDMA (Acesso Direto à Memória Remota), permitindo que a memória unificada das 4 Macs se fundam em um enorme pool de memória de vídeo.

Lista de hardware: 4 Macs Studio (M3 Ultra, versão de 512GB de memória), totalizando cerca de 2TB de memória de vídeo, conectados via Thunderbolt 5 (largura de banda de 120Gbps), o sistema precisa ser macOS Tahoe 26.2 ou versão mais recente.

Passo 1: Ativar suporte a RDMA

Operar em cada Mac:

Desligue o Mac e entre no modo de recuperação (pressione o botão de energia, selecione "Opções" > "Continuar")
Abra o Terminal e execute: bputil -a rdma
Reinicie o Mac
Verifique: systemprofiler SPThunderboltDataType para confirmar que o RDMA está ativado

O Thunderbolt 5 oferece largura de banda de 120Gbps, suportando perfeitamente a transferência de dados.

Passo 2: Instalar o EXO

Instalação do aplicativo macOS: baixe EXO-version.dmg do GitHub e instale-o. Abra o Dashboard e adicione o IP de outros Macs.

Instalação do código-fonte:

Instale o Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Passo 3: Conexão física e topologia

Não use Wi-Fi para a rede! Mesmo o Wi-Fi 7 não é suficiente. A inferência de modelos de trilhões é extremamente sensível à largura de banda. Use cabos Thunderbolt 5, configure um Mac como nó mestre (Master) e os outros três como nós de trabalho (Worker). Recomenda-se uma topologia em estrela ou conexão em cadeia.

No Dashboard do EXO, você deve ver os 4 dispositivos online, com o total do pool de memória exibido como 2048 GB.

Passo 4: Baixar e executar a versão comunitária do MLX Kimi-K2.5

Baixe o modelo:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Inicie o mecanismo de inferência:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Análise do comando:

--model: aponta para o diretório do modelo
--quant 4: usa quantização de 4 bits para reduzir o uso de memória
--shards auto: o EXO divide automaticamente o modelo
--engine mlx: chama a GPU de 76 núcleos e o Neural Engine do M3 Ultra para inferência

Resultado final e testes

Quando o terminal exibir "Pronto", você terá seu próprio supercomputador AI.

Fase de pré-preenchimento (Prefill): os ventiladores dos 4 Macs começam a acelerar levemente (graças à eficiência energética do M3 Ultra, não vão decolar).

Fase de geração (Generation): Tokens aparecem um após o outro.

Velocidade: embora não se compare a um cluster H100, graças ao suporte RDMA do Thunderbolt 5, a velocidade de geração de tokens pode alcançar de 17 a 28 tokens/s. Isso é totalmente interativo para um modelo de trilhões de parâmetros!

Resumo

Este conjunto de soluções definitivamente não é barato, mas prova que, com o esforço da Apple Silicon + comunidade de código aberto, o futuro da IA descentralizada está chegando. Não precisamos enviar dados para gigantes da nuvem; usando os dispositivos que temos à mão, podemos construir poderosos clusters de inferência privados.

Custa apenas 300 mil? Guia de implantação local do modelo Kimi-K2.5 com um supercomputador AI pessoal em 4 Mac Studios de 512GB

Custa apenas 300 mil? Guia de implantação local do modelo Kimi-K2.5 com um supercomputador AI pessoal em 4 Mac Studios de 512GB

Por que fazer tudo isso?

Passo 1: Ativar suporte a RDMA

Passo 2: Instalar o EXO

Passo 3: Conexão física e topologia

Passo 4: Baixar e executar a versão comunitária do MLX Kimi-K2.5

Resultado final e testes

Resumo

You Might Also Like

Guia de Modificação do Claude Code Buddy: Como Obter um Pet Lendário Brilhante

Obsidian lançou Defuddle, elevando o Obsidian Web Clipper a um novo patamar

OpenAI de repente anuncia "três em um": fusão de navegador + programação + ChatGPT, admitindo internamente que errou no último ano

2026, não se force mais a ser "disciplinado"! Faça estas 8 pequenas coisas e a saúde virá naturalmente

Aquelas mães que se esforçam para emagrecer e não conseguem, definitivamente caem aqui

Guia de Funcionamento Estável do Navegador AI 24 Horas