Košta samo 300.000? Kako izgraditi lični AI superračunar na 4 Mac Studio sa 512GB, lokalna instalacija modela Kimi-K2.5 sa trilion parametara
Košta samo 300.000? Kako izgraditi lični AI superračunar na 4 Mac Studio sa 512GB, lokalna instalacija modela Kimi-K2.5 sa trilion parametara
U ovom vremenu brzog razvoja velikih modela, svi imamo jedan san: pokrenuti lokalni model sa trilionom parametara koji se može uporediti sa GPT-5. Ali stvarnost je surova, modeli sa trilionom parametara čak i uz 4-bitnu kvantizaciju zahtevaju ogromne količine video memorije. H100, B200 su preskupi, šta da radimo?
Danas JamePeng vodi sve nas kroz proces korišćenja 4 potpuno opremljena M3 Ultra Mac Studio, putem EXO+MLX i Thunderbolt 5, kako bismo stvorili lokalni AI superračunar sa 2TB jedinstvene memorije! Cilj je samo jedan: pokrenuti Kimi-K2.5 model sa trilionom parametara lokalno.
Zašto se truditi?
Nije samo zbog kul efekta, već i zbog privatnosti podataka i ekstremne lokalne kontrole.
Osnovno oružje je EXO (GitHub: exo-explore/exo), koji podržava RDMA (daljinski direktan pristup memoriji), i može spojiti jedinstvenu memoriju 4 Mac-a u jedan ogroman video memorijski bazen.
Spisak hardvera: 4 Mac Studio (M3 Ultra, verzija sa 512GB memorije), ukupna video memorija oko 2TB, povezivanje putem Thunderbolt 5 (120Gbps propusnost), sistem zahteva macOS Tahoe 26.2 ili noviju verziju.
Korak 1: Aktiviranje RDMA podrške
Na svakom Mac-u:
- Isključite Mac, uđite u režim oporavka (držite dugme za napajanje, izaberite "Options" > "Continue")
- Otvorite Terminal, pokrenite: bputil -a rdma
- Ponovo pokrenite Mac
- Proverite: systemprofiler SPThunderboltDataType da biste proverili da li je RDMA aktiviran
Korak 2: Instalacija EXO
Instalacija macOS aplikacije: preuzmite EXO-version.dmg sa GitHub-a, instalirajte i pokrenite. Otvorite Dashboard i dodajte IP adrese drugih Mac-a.
Instalacija iz izvornog koda:
- Instalirajte Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Korak 3: Fizičko povezivanje i topologija
Nemojte koristiti Wi-Fi za umrežavanje! Čak ni Wi-Fi 7 nije dovoljan. Inferencija modela sa trilionom parametara je izuzetno osetljiva na propusnost. Molimo vas da koristite Thunderbolt 5 kablove, postavite jedan Mac kao glavni čvor (Master), a ostale tri kao radne čvorove (Worker). Preporučuje se zvezdasta topologija ili lančana povezanost.
U EXO Dashboard-u, trebali biste videti da su 4 uređaja potpuno online, a ukupni memorijski bazen prikazan kao 2048 GB.
Korak 4: Preuzimanje i pokretanje MLX verzije Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Pokrenite inferencijski motor:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Objašnjenje komandi:
- --model: ukazuje na direktorijum modela
- --quant 4: koristi 4-bitnu kvantizaciju za smanjenje korišćenja memorije
- --shards auto: EXO automatski inteligentno deli model
- --engine mlx: koristi 76-jezgarni GPU i Neural Engine M3 Ultra za inferenciju
Konačni efekat i merenja
Kada terminal prikaže Ready, imate svoj AI superračunar.
Faza predpunjenja (Prefill): ventilatori 4 Mac-a počinju lagano da se ubrzavaju (zahvaljujući energetskoj efikasnosti M3 Ultra, neće poleteti).
Faza generisanja (Generation): Tokeni izlaze jedan za drugim.
Brzina: Iako ne može da se uporedi sa H100 klasterom, zahvaljujući RDMA podršci Thunderbolt 5, brzina generisanja tokena može dostići 17-28 tokena/s. Ovo je potpuno interaktivno za model sa trilionom parametara!
Zaključak
Ovo rešenje nije jeftino, ali dokazuje da uz napore Apple Silicon + otvorene zajednice, decentralizovana budućnost AI dolazi. Ne moramo slati podatke velikim oblacima, koristeći uređaje koje imamo, možemo izgraditi moćne privatne inferencijske klastere.

