Costo solo 300.000? Guida alla distribuzione locale del modello Kimi-K2.5 da un trilione di parametri su 4 Mac Studio da 512GB

In quest'era di esplosione dei modelli di grandi dimensioni, tutti noi abbiamo un sogno: eseguire localmente un modello da un trilione di parametri paragonabile a GPT-5. Ma la realtà è dura, i modelli da un trilione di parametri, anche se quantizzati a 4 bit, richiedono enormi quantità di memoria video. H100 e B200 sono troppo costosi, cosa fare?

Oggi JamePeng ci guiderà a utilizzare 4 Mac Studio M3 Ultra completamente equipaggiati, tramite EXO+MLX e Thunderbolt 5, per creare una supercomputer AI locale con 2TB di memoria unificata! L'obiettivo è uno solo: eseguire localmente il grande modello Kimi-K2.5 da un trilione di parametri.

Perché fare tutto questo?

Non solo per essere cool, ma anche per la privacy dei dati e il massimo controllo locale.

L'arma principale è EXO (GitHub: exo-explore/exo), che supporta RDMA (Remote Direct Memory Access), permettendo di unire la memoria unificata di 4 Mac in un enorme pool di memoria video.

Elenco hardware: 4 Mac Studio (M3 Ultra, versione con 512GB di memoria), memoria video totale di circa 2TB, collegamento tramite Thunderbolt 5 (larghezza di banda di 120Gbps), il sistema richiede macOS Tahoe 26.2 o versione successiva.

Passo 1: Abilitare il supporto RDMA

Operare su ogni Mac:

Spegnere il Mac, entrare in modalità di recupero (tenere premuto il pulsante di accensione, selezionare "Opzioni" > "Continua")
Aprire il Terminale, eseguire: bputil -a rdma
Riavviare il Mac
Verificare: systemprofiler SPThunderboltDataType per controllare se RDMA è abilitato

Thunderbolt 5 offre una larghezza di banda di 120Gbps, supportando perfettamente il trasferimento dei dati.

Passo 2: Installare EXO

Installazione dell'app macOS: scaricare EXO-version.dmg da GitHub, installare e avviare. Aprire il Dashboard per aggiungere l'IP degli altri Mac.

Installazione del codice sorgente:

Installare Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Passo 3: Connessione fisica e topologia

Non utilizzare Wi-Fi per la rete! Anche Wi-Fi 7 non va bene. L'inferenza di un modello da un trilione di parametri è estremamente sensibile alla larghezza di banda. Si prega di utilizzare cavi Thunderbolt 5, impostando un Mac come nodo principale (Master) e gli altri tre come nodi di lavoro (Worker). Si consiglia una topologia a stella o una connessione a catena.

Nel Dashboard di EXO, dovresti vedere tutte e 4 le apparecchiature online, con il pool di memoria totale visualizzato come 2048 GB.

Passo 4: Scaricare e avviare la versione comunitaria di MLX Kimi-K2.5

Scaricare il modello:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Avviare il motore di inferenza:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Analisi del comando:

--model: punta alla directory del modello
--quant 4: utilizza la quantizzazione a 4 bit per ridurre l'uso della memoria
--shards auto: EXO suddivide automaticamente il modello
--engine mlx: utilizza la GPU a 76 core e il Neural Engine di M3 Ultra per l'inferenza

Risultato finale e misurazioni

Quando il terminale mostra "Pronto", hai a disposizione un supercomputer AI tutto tuo.

Fase di pre-riempimento: le ventole dei 4 Mac iniziano a accelerare leggermente (grazie all'efficienza energetica di M3 Ultra, non decolleranno).

Fase di generazione: i token iniziano a comparire uno dopo l'altro.

Velocità: anche se non può competere con un cluster H100, grazie al supporto RDMA di Thunderbolt 5, la velocità di generazione dei token può raggiungere 17-28 tokens/s. Questo è completamente interattivo per un modello da un trilione di parametri!

Conclusione

Questa soluzione non è affatto economica, ma dimostra che grazie agli sforzi della Apple Silicon e della comunità open source, il futuro dell'AI decentralizzata sta arrivando. Non abbiamo bisogno di inviare i dati ai giganti del cloud; utilizzando i dispositivi a nostra disposizione, possiamo costruire potenti cluster di inferenza privati.

Costo solo 300.000? Guida alla distribuzione locale del modello Kimi-K2.5 da un trilione di parametri su 4 Mac Studio da 512GB

Costo solo 300.000? Guida alla distribuzione locale del modello Kimi-K2.5 da un trilione di parametri su 4 Mac Studio da 512GB

Perché fare tutto questo?

Passo 1: Abilitare il supporto RDMA

Passo 2: Installare EXO

Passo 3: Connessione fisica e topologia

Passo 4: Scaricare e avviare la versione comunitaria di MLX Kimi-K2.5

Risultato finale e misurazioni

Conclusione

You Might Also Like

Guida alla modifica di Claude Code Buddy: come ottenere un animale domestico leggendario splendente

Obsidian ha lanciato Defuddle, portando Obsidian Web Clipper a un nuovo livello

OpenAI annuncia improvvisamente "tre in uno": fusione di browser + programmazione + ChatGPT, ammettendo internamente di aver sbagliato nell'ultimo anno

2026, non costringerti più alla "disciplina"! Fai queste 8 piccole cose e la salute arriverà naturalmente

Quelle mamme che si sforzano di dimagrire ma non ci riescono, sicuramente sono cadute qui

Guida al funzionamento stabile dell'AI Browser 24 ore su 24