Costo solo 300.000? Guida alla distribuzione locale del modello Kimi-K2.5 da un trilione di parametri su 4 Mac Studio da 512GB

2/26/2026
4 min read

Costo solo 300.000? Guida alla distribuzione locale del modello Kimi-K2.5 da un trilione di parametri su 4 Mac Studio da 512GB

In quest'era di esplosione dei modelli di grandi dimensioni, tutti noi abbiamo un sogno: eseguire localmente un modello da un trilione di parametri paragonabile a GPT-5. Ma la realtà è dura, i modelli da un trilione di parametri, anche se quantizzati a 4 bit, richiedono enormi quantità di memoria video. H100 e B200 sono troppo costosi, cosa fare?

Oggi JamePeng ci guiderà a utilizzare 4 Mac Studio M3 Ultra completamente equipaggiati, tramite EXO+MLX e Thunderbolt 5, per creare una supercomputer AI locale con 2TB di memoria unificata! L'obiettivo è uno solo: eseguire localmente il grande modello Kimi-K2.5 da un trilione di parametri.

Perché fare tutto questo?

Non solo per essere cool, ma anche per la privacy dei dati e il massimo controllo locale.

L'arma principale è EXO (GitHub: exo-explore/exo), che supporta RDMA (Remote Direct Memory Access), permettendo di unire la memoria unificata di 4 Mac in un enorme pool di memoria video.

Elenco hardware: 4 Mac Studio (M3 Ultra, versione con 512GB di memoria), memoria video totale di circa 2TB, collegamento tramite Thunderbolt 5 (larghezza di banda di 120Gbps), il sistema richiede macOS Tahoe 26.2 o versione successiva.

Passo 1: Abilitare il supporto RDMA

Operare su ogni Mac:

  • Spegnere il Mac, entrare in modalità di recupero (tenere premuto il pulsante di accensione, selezionare "Opzioni" > "Continua")
  • Aprire il Terminale, eseguire: bputil -a rdma
  • Riavviare il Mac
  • Verificare: systemprofiler SPThunderboltDataType per controllare se RDMA è abilitato
Thunderbolt 5 offre una larghezza di banda di 120Gbps, supportando perfettamente il trasferimento dei dati.

Passo 2: Installare EXO

Installazione dell'app macOS: scaricare EXO-version.dmg da GitHub, installare e avviare. Aprire il Dashboard per aggiungere l'IP degli altri Mac.

Installazione del codice sorgente:

  • Installare Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Passo 3: Connessione fisica e topologia

Non utilizzare Wi-Fi per la rete! Anche Wi-Fi 7 non va bene. L'inferenza di un modello da un trilione di parametri è estremamente sensibile alla larghezza di banda. Si prega di utilizzare cavi Thunderbolt 5, impostando un Mac come nodo principale (Master) e gli altri tre come nodi di lavoro (Worker). Si consiglia una topologia a stella o una connessione a catena.

Nel Dashboard di EXO, dovresti vedere tutte e 4 le apparecchiature online, con il pool di memoria totale visualizzato come 2048 GB.

Passo 4: Scaricare e avviare la versione comunitaria di MLX Kimi-K2.5

  • Scaricare il modello:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Avviare il motore di inferenza:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Analisi del comando:

    • --model: punta alla directory del modello
    • --quant 4: utilizza la quantizzazione a 4 bit per ridurre l'uso della memoria
    • --shards auto: EXO suddivide automaticamente il modello
    • --engine mlx: utilizza la GPU a 76 core e il Neural Engine di M3 Ultra per l'inferenza

    Risultato finale e misurazioni

    Quando il terminale mostra "Pronto", hai a disposizione un supercomputer AI tutto tuo.

    Fase di pre-riempimento: le ventole dei 4 Mac iniziano a accelerare leggermente (grazie all'efficienza energetica di M3 Ultra, non decolleranno).

    Fase di generazione: i token iniziano a comparire uno dopo l'altro.

    Velocità: anche se non può competere con un cluster H100, grazie al supporto RDMA di Thunderbolt 5, la velocità di generazione dei token può raggiungere 17-28 tokens/s. Questo è completamente interattivo per un modello da un trilione di parametri!

    Conclusione

    Questa soluzione non è affatto economica, ma dimostra che grazie agli sforzi della Apple Silicon e della comunità open source, il futuro dell'AI decentralizzata sta arrivando. Non abbiamo bisogno di inviare i dati ai giganti del cloud; utilizzando i dispositivi a nostra disposizione, possiamo costruire potenti cluster di inferenza privati.

    Published in Technology

    You Might Also Like