Košta samo 300.000? Kako izgraditi lični AI superračunar na 4 Mac Studio sa 512GB, lokalna instalacija modela Kimi-K2.5 sa trilion parametara

U ovom vremenu brzog razvoja velikih modela, svi imamo jedan san: pokrenuti lokalni model sa trilionom parametara koji se može uporediti sa GPT-5. Ali stvarnost je surova, modeli sa trilionom parametara čak i uz 4-bitnu kvantizaciju zahtevaju ogromne količine video memorije. H100, B200 su preskupi, šta da radimo?

Danas JamePeng vodi sve nas kroz proces korišćenja 4 potpuno opremljena M3 Ultra Mac Studio, putem EXO+MLX i Thunderbolt 5, kako bismo stvorili lokalni AI superračunar sa 2TB jedinstvene memorije! Cilj je samo jedan: pokrenuti Kimi-K2.5 model sa trilionom parametara lokalno.

Zašto se truditi?

Nije samo zbog kul efekta, već i zbog privatnosti podataka i ekstremne lokalne kontrole.

Osnovno oružje je EXO (GitHub: exo-explore/exo), koji podržava RDMA (daljinski direktan pristup memoriji), i može spojiti jedinstvenu memoriju 4 Mac-a u jedan ogroman video memorijski bazen.

Spisak hardvera: 4 Mac Studio (M3 Ultra, verzija sa 512GB memorije), ukupna video memorija oko 2TB, povezivanje putem Thunderbolt 5 (120Gbps propusnost), sistem zahteva macOS Tahoe 26.2 ili noviju verziju.

Korak 1: Aktiviranje RDMA podrške

Na svakom Mac-u:

Isključite Mac, uđite u režim oporavka (držite dugme za napajanje, izaberite "Options" > "Continue")
Otvorite Terminal, pokrenite: bputil -a rdma
Ponovo pokrenite Mac
Proverite: systemprofiler SPThunderboltDataType da biste proverili da li je RDMA aktiviran

Thunderbolt 5 pruža 120Gbps propusnost, savršeno podržava prenos podataka.

Korak 2: Instalacija EXO

Instalacija macOS aplikacije: preuzmite EXO-version.dmg sa GitHub-a, instalirajte i pokrenite. Otvorite Dashboard i dodajte IP adrese drugih Mac-a.

Instalacija iz izvornog koda:

Instalirajte Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Korak 3: Fizičko povezivanje i topologija

Nemojte koristiti Wi-Fi za umrežavanje! Čak ni Wi-Fi 7 nije dovoljan. Inferencija modela sa trilionom parametara je izuzetno osetljiva na propusnost. Molimo vas da koristite Thunderbolt 5 kablove, postavite jedan Mac kao glavni čvor (Master), a ostale tri kao radne čvorove (Worker). Preporučuje se zvezdasta topologija ili lančana povezanost.

U EXO Dashboard-u, trebali biste videti da su 4 uređaja potpuno online, a ukupni memorijski bazen prikazan kao 2048 GB.

Korak 4: Preuzimanje i pokretanje MLX verzije Kimi-K2.5

Preuzmite model:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Pokrenite inferencijski motor:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Objašnjenje komandi:

--model: ukazuje na direktorijum modela
--quant 4: koristi 4-bitnu kvantizaciju za smanjenje korišćenja memorije
--shards auto: EXO automatski inteligentno deli model
--engine mlx: koristi 76-jezgarni GPU i Neural Engine M3 Ultra za inferenciju

Konačni efekat i merenja

Kada terminal prikaže Ready, imate svoj AI superračunar.

Faza predpunjenja (Prefill): ventilatori 4 Mac-a počinju lagano da se ubrzavaju (zahvaljujući energetskoj efikasnosti M3 Ultra, neće poleteti).

Faza generisanja (Generation): Tokeni izlaze jedan za drugim.

Brzina: Iako ne može da se uporedi sa H100 klasterom, zahvaljujući RDMA podršci Thunderbolt 5, brzina generisanja tokena može dostići 17-28 tokena/s. Ovo je potpuno interaktivno za model sa trilionom parametara!

Zaključak

Ovo rešenje nije jeftino, ali dokazuje da uz napore Apple Silicon + otvorene zajednice, decentralizovana budućnost AI dolazi. Ne moramo slati podatke velikim oblacima, koristeći uređaje koje imamo, možemo izgraditi moćne privatne inferencijske klastere.

Košta samo 300.000? Kako izgraditi lični AI superračunar na 4 Mac Studio sa 512GB, lokalna instalacija modela Kimi-K2.5 sa trilion parametara

Košta samo 300.000? Kako izgraditi lični AI superračunar na 4 Mac Studio sa 512GB, lokalna instalacija modela Kimi-K2.5 sa trilion parametara

Zašto se truditi?

Korak 1: Aktiviranje RDMA podrške

Korak 2: Instalacija EXO

Korak 3: Fizičko povezivanje i topologija

Korak 4: Preuzimanje i pokretanje MLX verzije Kimi-K2.5

Konačni efekat i merenja

Zaključak

You Might Also Like

Claude Code Buddy izmjena vodič: Kako dobiti sjajnog legendarno ljubimca

Obsidian je lansirao Defuddle, podižući Obsidian Web Clipper na novu visinu

OpenAI iznenada najavljuje "tri u jedan": spajanje preglednika + programiranja + ChatGPT, unutrašnje priznanje da su prošle godine pogriješili

2026, ne prisiljavaj se na "disciplinu"! Učini ovih 8 malih stvari, zdravlje će doći prirodno

One of the reasons why mothers who struggle to lose weight fail

AI Browser 24小时稳定运行指南