Da li je trošak samo 300.000? Vodič za lokalno postavljanje ličnog AI superračunara sa 4 Mac Studio od 512GB i trilionskim parametrima Kimi-K2.5

2/26/2026
3 min read

Da li je trošak samo 300.000? Vodič za lokalno postavljanje ličnog AI superračunara sa 4 Mac Studio od 512GB i trilionskim parametrima Kimi-K2.5

U ovoj eri brzog razvoja velikih modela, svi imamo jedan san: pokrenuti lokalni model sa trilionskim parametrima koji se može uporediti sa GPT-5. Ali stvarnost je surova, modeli sa trilionskim parametrima, čak i sa 4-bitnom kvantizacijom, zahtevaju ogromne količine video memorije. H100, B200 su preskupi, šta da radimo?

Danas JamePeng vodi sve nas da koristimo 4 potpuno opremljena M3 Ultra Mac Studio, putem EXO+MLX i Thunderbolt 5, da stvorimo lokalni AI superračunar sa 2TB jedinstvene memorije! Cilj je samo jedan: pokrenuti Kimi-K2.5 model sa trilionskim parametrima lokalno.

Zašto se mučiti?

Nije samo zbog kul efekta, već i zbog privatnosti podataka i ekstremne lokalne kontrole.

Osnovno oružje je EXO (GitHub: exo-explore/exo), koji podržava RDMA (daljinski direktan pristup memoriji), i može spojiti jedinstvenu memoriju 4 Mac-a u jedan ogroman video memorijski bazen.

Spisak hardvera: 4 Mac Studio (M3 Ultra, verzija sa 512GB memorije), ukupna video memorija oko 2TB, povezivanje koristi Thunderbolt 5 (120Gbps propusnost), sistem zahteva macOS Tahoe 26.2 ili noviju verziju.

Korak 1: Aktiviranje RDMA podrške

Na svakom Mac-u:

  • Isključite Mac, uđite u režim oporavka (pritisnite dugme za napajanje, izaberite "Options" > "Continue")
  • Otvorite Terminal, pokrenite: bputil -a rdma
  • Ponovo pokrenite Mac
  • Proverite: systemprofiler SPThunderboltDataType da biste proverili da li je RDMA aktiviran
Thunderbolt 5 pruža 120Gbps propusnost, savršeno podržava prenos podataka.

Korak 2: Instalacija EXO

Instalacija macOS aplikacije: preuzmite EXO-version.dmg sa GitHub-a, instalirajte i pokrenite. Otvorite Dashboard i dodajte IP adrese drugih Mac-a.

Instalacija iz izvornog koda:

  • Instalirajte Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Korak 3: Fizičko povezivanje i topologija

Nemojte koristiti Wi-Fi za umrežavanje! Čak ni Wi-Fi 7 nije dovoljan. Inferencija trilionskog modela je izuzetno osetljiva na propusnost. Molimo vas da koristite Thunderbolt 5 kablove, postavite jedan Mac kao glavni čvor (Master), a ostale tri kao radne čvorove (Worker). Preporučuje se zvezdasta topologija ili lančana povezanost.

U EXO Dashboard-u, trebali biste moći da vidite da su 4 uređaja potpuno online, ukupni memorijski bazen prikazan kao 2048 GB.

Korak 4: Preuzimanje i pokretanje MLX verzije Kimi-K2.5

  • Preuzmite model:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Pokrenite inferencijski motor:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Objašnjenje komandi:

    • --model: ukazuje na direktorijum modela
    • --quant 4: koristi 4-bitnu kvantizaciju za smanjenje korišćenja memorije
    • --shards auto: EXO automatski inteligentno deli model
    • --engine mlx: koristi 76-jezgarni GPU i Neural Engine M3 Ultra za inferenciju

    Konačni efekat i merenja

    Kada terminal prikaže Ready, imate svoj AI superračunar.

    Faza predpunjenja (Prefill): ventilatori 4 Mac-a počinju lagano da se ubrzavaju (zahvaljujući energetskoj efikasnosti M3 Ultra, neće poleteti).

    Faza generisanja (Generation): Tokeni izlaze jedan za drugim.

    Brzina: Iako nije uporediva sa H100 klasterom, zahvaljujući RDMA podršci Thunderbolt 5, brzina generisanja tokena može dostići 17-28 tokena/s. Ovo je potpuno interaktivno za model sa trilionskim parametrima!

    Zaključak

    Ovo rešenje nije jeftino, ali dokazuje da uz napore Apple Silicon + otvorene zajednice, decentralizovana budućnost AI dolazi. Ne moramo slati podatke velikim oblacima, koristeći uređaje koje imamo, možemo izgraditi moćne privatne inferencijske klastere.

    Published in Technology

    You Might Also Like

    📝
    Technology

    Claude Code Buddy модификација: Како добити сјајног легендарног љубимца

    Claude Code Buddy модификација: Како добити сјајног легендарног љубимца априла 2026. године, Anthropic је у верзији Clau...

    Obsidian je lansirao Defuddle, podigao Obsidian Web Clipper na novi nivoTechnology

    Obsidian je lansirao Defuddle, podigao Obsidian Web Clipper na novi nivo

    Obsidian je lansirao Defuddle, podigao Obsidian Web Clipper na novi nivo Uvek sam voleo osnovnu ideju Obsidiana: lokaln...

    OpenAI iznenada najavljuje "tri u jednom": spajanje pretraživača + programiranja + ChatGPT, unutrašnje priznanje da su prošle godine pogrešiliTechnology

    OpenAI iznenada najavljuje "tri u jednom": spajanje pretraživača + programiranja + ChatGPT, unutrašnje priznanje da su prošle godine pogrešili

    OpenAI iznenada najavljuje "tri u jednom": spajanje pretraživača + programiranja + ChatGPT, unutrašnje priznanje da su p...

    2026, ne prisiljavajte se na "disciplinu"! Uradite ovih 8 malih stvari, zdravlje će doći prirodnoHealth

    2026, ne prisiljavajte se na "disciplinu"! Uradite ovih 8 malih stvari, zdravlje će doći prirodno

    2026, ne prisiljavajte se na "disciplinu"! Uradite ovih 8 malih stvari, zdravlje će doći prirodno Nova godina je počela...

    One of the reasons why mothers who work hard to lose weight can't succeed is definitely hereHealth

    One of the reasons why mothers who work hard to lose weight can't succeed is definitely here

    One of the reasons why mothers who work hard to lose weight can't succeed is definitely here Mart je već prošao, kako n...

    📝
    Technology

    AI Browser 24-сатна стабилна операција

    AI Browser 24-сатна стабилна операција Овај водич описује како да се подеси стабилно, дугорочно окружење за AI прегледач...