Košta samo 300.000? Kako izgraditi osobni AI superračunalo na 4 Mac Studio s 512GB, lokalna implementacija Kimi-K2.5 s trilijun parametara

U ovom vremenu brzog razvoja velikih modela, svi imamo jedan san: pokrenuti lokalni model s trilijun parametara koji se može mjeriti s GPT-5. No, stvarnost je surova, modeli s trilijun parametara, čak i uz 4-bitnu kvantizaciju, zahtijevaju ogromne količine video memorije. H100, B200 su preskupi, što učiniti?

Danas JamePeng vodi sve nas kroz proces korištenja 4 potpuno opremljena M3 Ultra Mac Studio, putem EXO+MLX i Thunderbolt 5, stvarajući lokalno AI superračunalo s 2TB jedinstvene memorije! Cilj je samo jedan: pokrenuti Kimi-K2.5 model s trilijun parametara lokalno.

Zašto se mučiti?

Nije samo zbog stila, već i zbog privatnosti podataka i maksimalne lokalne kontrole.

Glavno oružje je EXO (GitHub: exo-explore/exo), koji podržava RDMA (daljinski izravni pristup memoriji), omogućujući spajanje jedinstvene memorije 4 Maca u jedan ogroman memorijski bazen.

Popis hardvera: 4 Mac Studio (M3 Ultra, 512GB verzija), ukupna video memorija oko 2TB, povezivanje putem Thunderbolt 5 (120Gbps propusnost), sustav treba macOS Tahoe 26.2 ili noviju verziju.

Korak 1: Omogućite podršku za RDMA

Na svakom Macu:

Isključite Mac, uđite u način oporavka (držite tipku za napajanje, odaberite "Opcije" > "Nastavi")
Otvorite Terminal, pokrenite: bputil -a rdma
Ponovo pokrenite Mac
Provjerite: systemprofiler SPThunderboltDataType da biste provjerili je li RDMA omogućeno

Thunderbolt 5 pruža 120Gbps propusnost, savršeno podržava prijenos podataka.

Korak 2: Instalirajte EXO

Instalacija macOS aplikacije: preuzmite EXO-version.dmg s GitHub-a, instalirajte i pokrenite. Otvorite Dashboard i dodajte IP adrese drugih Macova.

Instalacija iz izvornog koda:

Instalirajte Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Korak 3: Fizičko povezivanje i topologija

Nemojte koristiti Wi-Fi za umrežavanje! Čak ni Wi-Fi 7 nije dovoljan. Inferencija modela s trilijun parametara izuzetno je osjetljiva na propusnost. Molimo koristite Thunderbolt 5 kabel, postavite jedan Mac kao glavnu čvor (Master), a ostale tri kao radne čvorove (Worker). Preporučuje se zvjezdasta topologija ili lančana povezanost.

U EXO Dashboard-u, trebali biste vidjeti da su 4 uređaja potpuno online, a ukupni memorijski bazen prikazan je kao 2048 GB.

Korak 4: Preuzmite i pokrenite MLX verziju Kimi-K2.5

Preuzmite model:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Pokrenite inferencijski motor:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Objašnjenje naredbe:

--model: upućuje na direktorij modela
--quant 4: koristi 4-bitnu kvantizaciju za smanjenje korištenja memorije
--shards auto: EXO automatski inteligentno dijeli model
--engine mlx: koristi 76-jezgreni GPU i Neural Engine M3 Ultra za inferenciju

Konačni rezultat i stvarna mjerenja

Kada terminal prikazuje "Spremno", imate svoje vlastito AI superračunalo.

Faza predpunjenja (Prefill): ventilatori 4 Maca počinju lagano ubrzavati (zahvaljujući energetskoj učinkovitosti M3 Ultra, ne dižu se u zrak).

Faza generiranja (Generation): Tokeni izlaze jedan za drugim.

Brzina: Iako nije usporediva s H100 klasterom, zahvaljujući RDMA podršci Thunderbolt 5, brzina generiranja tokena može doseći 17-28 tokena/s. To je potpuno interaktivno za model s trilijun parametara!

Zaključak

Ovo rješenje nije jeftino, ali dokazuje da uz Apple Silicon i trud otvorene zajednice, decentralizirana AI budućnost dolazi. Ne trebamo slati podatke velikim oblacima, koristeći uređaje koje imamo, možemo izgraditi moćne privatne inferencijske klastere.

Košta samo 300.000? Kako izgraditi osobni AI superračunalo na 4 Mac Studio s 512GB, lokalna implementacija Kimi-K2.5 s trilijun parametara

Košta samo 300.000? Kako izgraditi osobni AI superračunalo na 4 Mac Studio s 512GB, lokalna implementacija Kimi-K2.5 s trilijun parametara

Zašto se mučiti?

Korak 1: Omogućite podršku za RDMA

Korak 2: Instalirajte EXO

Korak 3: Fizičko povezivanje i topologija

Korak 4: Preuzmite i pokrenite MLX verziju Kimi-K2.5

Konačni rezultat i stvarna mjerenja

Zaključak

You Might Also Like

Claude Code Buddy izmjena vodič: kako dobiti sjajnog legendarno ljubimca

Obsidian je lansirao Defuddle, podižući Obsidian Web Clipper na novu razinu

OpenAI iznenada najavljuje "tri u jednom": spajanje preglednika + programiranja + ChatGPT, unutarnje priznanje da su prošlu godinu pogriješili

2026, ne prisiljavajte se na "disciplinu"! Učinite ovih 8 malih stvari, zdravlje će doći prirodno

One effortful mothers who can't lose weight definitely fall here

AI Browser 24-satna stabilna operativna uputa