Košta samo 300.000? Kako izgraditi osobni AI superračunalo na 4 Mac Studio s 512GB, lokalna implementacija Kimi-K2.5 s trilijun parametara
Košta samo 300.000? Kako izgraditi osobni AI superračunalo na 4 Mac Studio s 512GB, lokalna implementacija Kimi-K2.5 s trilijun parametara
U ovom vremenu brzog razvoja velikih modela, svi imamo jedan san: pokrenuti lokalni model s trilijun parametara koji se može mjeriti s GPT-5. No, stvarnost je surova, modeli s trilijun parametara, čak i uz 4-bitnu kvantizaciju, zahtijevaju ogromne količine video memorije. H100, B200 su preskupi, što učiniti?
Danas JamePeng vodi sve nas kroz proces korištenja 4 potpuno opremljena M3 Ultra Mac Studio, putem EXO+MLX i Thunderbolt 5, stvarajući lokalno AI superračunalo s 2TB jedinstvene memorije! Cilj je samo jedan: pokrenuti Kimi-K2.5 model s trilijun parametara lokalno.
Zašto se mučiti?
Nije samo zbog stila, već i zbog privatnosti podataka i maksimalne lokalne kontrole.
Glavno oružje je EXO (GitHub: exo-explore/exo), koji podržava RDMA (daljinski izravni pristup memoriji), omogućujući spajanje jedinstvene memorije 4 Maca u jedan ogroman memorijski bazen.
Popis hardvera: 4 Mac Studio (M3 Ultra, 512GB verzija), ukupna video memorija oko 2TB, povezivanje putem Thunderbolt 5 (120Gbps propusnost), sustav treba macOS Tahoe 26.2 ili noviju verziju.
Korak 1: Omogućite podršku za RDMA
Na svakom Macu:
- Isključite Mac, uđite u način oporavka (držite tipku za napajanje, odaberite "Opcije" > "Nastavi")
- Otvorite Terminal, pokrenite: bputil -a rdma
- Ponovo pokrenite Mac
- Provjerite: systemprofiler SPThunderboltDataType da biste provjerili je li RDMA omogućeno
Korak 2: Instalirajte EXO
Instalacija macOS aplikacije: preuzmite EXO-version.dmg s GitHub-a, instalirajte i pokrenite. Otvorite Dashboard i dodajte IP adrese drugih Macova.
Instalacija iz izvornog koda:
- Instalirajte Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Korak 3: Fizičko povezivanje i topologija
Nemojte koristiti Wi-Fi za umrežavanje! Čak ni Wi-Fi 7 nije dovoljan. Inferencija modela s trilijun parametara izuzetno je osjetljiva na propusnost. Molimo koristite Thunderbolt 5 kabel, postavite jedan Mac kao glavnu čvor (Master), a ostale tri kao radne čvorove (Worker). Preporučuje se zvjezdasta topologija ili lančana povezanost.
U EXO Dashboard-u, trebali biste vidjeti da su 4 uređaja potpuno online, a ukupni memorijski bazen prikazan je kao 2048 GB.
Korak 4: Preuzmite i pokrenite MLX verziju Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Pokrenite inferencijski motor:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Objašnjenje naredbe:
- --model: upućuje na direktorij modela
- --quant 4: koristi 4-bitnu kvantizaciju za smanjenje korištenja memorije
- --shards auto: EXO automatski inteligentno dijeli model
- --engine mlx: koristi 76-jezgreni GPU i Neural Engine M3 Ultra za inferenciju
Konačni rezultat i stvarna mjerenja
Kada terminal prikazuje "Spremno", imate svoje vlastito AI superračunalo.
Faza predpunjenja (Prefill): ventilatori 4 Maca počinju lagano ubrzavati (zahvaljujući energetskoj učinkovitosti M3 Ultra, ne dižu se u zrak).
Faza generiranja (Generation): Tokeni izlaze jedan za drugim.
Brzina: Iako nije usporediva s H100 klasterom, zahvaljujući RDMA podršci Thunderbolt 5, brzina generiranja tokena može doseći 17-28 tokena/s. To je potpuno interaktivno za model s trilijun parametara!
Zaključak
Ovo rješenje nije jeftino, ali dokazuje da uz Apple Silicon i trud otvorene zajednice, decentralizirana AI budućnost dolazi. Ne trebamo slati podatke velikim oblacima, koristeći uređaje koje imamo, možemo izgraditi moćne privatne inferencijske klastere.

