Costo solo 300.000? Guida alla distribuzione locale del modello Kimi-K2.5 da un trilione di parametri su 4 Mac Studio da 512GB
Costo solo 300.000? Guida alla distribuzione locale del modello Kimi-K2.5 da un trilione di parametri su 4 Mac Studio da 512GB
In quest'era di esplosione dei modelli di grandi dimensioni, tutti noi abbiamo un sogno: eseguire localmente un modello da un trilione di parametri paragonabile a GPT-5. Ma la realtà è dura, i modelli da un trilione di parametri, anche se quantizzati a 4 bit, richiedono enormi quantità di memoria video. H100 e B200 sono troppo costosi, cosa fare?
Oggi JamePeng ci guiderà a utilizzare 4 Mac Studio M3 Ultra completamente equipaggiati, tramite EXO+MLX e Thunderbolt 5, per creare una supercomputer AI locale con 2TB di memoria unificata! L'obiettivo è uno solo: eseguire localmente il grande modello Kimi-K2.5 da un trilione di parametri.
Perché fare tutto questo?
Non solo per essere cool, ma anche per la privacy dei dati e il massimo controllo locale.
L'arma principale è EXO (GitHub: exo-explore/exo), che supporta RDMA (Remote Direct Memory Access), permettendo di unire la memoria unificata di 4 Mac in un enorme pool di memoria video.
Elenco hardware: 4 Mac Studio (M3 Ultra, versione con 512GB di memoria), memoria video totale di circa 2TB, collegamento tramite Thunderbolt 5 (larghezza di banda di 120Gbps), il sistema richiede macOS Tahoe 26.2 o versione successiva.
Passo 1: Abilitare il supporto RDMA
Operare su ogni Mac:
- Spegnere il Mac, entrare in modalità di recupero (tenere premuto il pulsante di accensione, selezionare "Opzioni" > "Continua")
- Aprire il Terminale, eseguire: bputil -a rdma
- Riavviare il Mac
- Verificare: systemprofiler SPThunderboltDataType per controllare se RDMA è abilitato
Passo 2: Installare EXO
Installazione dell'app macOS: scaricare EXO-version.dmg da GitHub, installare e avviare. Aprire il Dashboard per aggiungere l'IP degli altri Mac.
Installazione del codice sorgente:
- Installare Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Passo 3: Connessione fisica e topologia
Non utilizzare Wi-Fi per la rete! Anche Wi-Fi 7 non va bene. L'inferenza di un modello da un trilione di parametri è estremamente sensibile alla larghezza di banda. Si prega di utilizzare cavi Thunderbolt 5, impostando un Mac come nodo principale (Master) e gli altri tre come nodi di lavoro (Worker). Si consiglia una topologia a stella o una connessione a catena.
Nel Dashboard di EXO, dovresti vedere tutte e 4 le apparecchiature online, con il pool di memoria totale visualizzato come 2048 GB.
Passo 4: Scaricare e avviare la versione comunitaria di MLX Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Avviare il motore di inferenza:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Analisi del comando:
- --model: punta alla directory del modello
- --quant 4: utilizza la quantizzazione a 4 bit per ridurre l'uso della memoria
- --shards auto: EXO suddivide automaticamente il modello
- --engine mlx: utilizza la GPU a 76 core e il Neural Engine di M3 Ultra per l'inferenza
Risultato finale e misurazioni
Quando il terminale mostra "Pronto", hai a disposizione un supercomputer AI tutto tuo.
Fase di pre-riempimento: le ventole dei 4 Mac iniziano a accelerare leggermente (grazie all'efficienza energetica di M3 Ultra, non decolleranno).
Fase di generazione: i token iniziano a comparire uno dopo l'altro.
Velocità: anche se non può competere con un cluster H100, grazie al supporto RDMA di Thunderbolt 5, la velocità di generazione dei token può raggiungere 17-28 tokens/s. Questo è completamente interattivo per un modello da un trilione di parametri!
Conclusione
Questa soluzione non è affatto economica, ma dimostra che grazie agli sforzi della Apple Silicon e della comunità open source, il futuro dell'AI decentralizzata sta arrivando. Non abbiamo bisogno di inviare i dati ai giganti del cloud; utilizzando i dispositivi a nostra disposizione, possiamo costruire potenti cluster di inferenza privati.

