Košta samo 300.000? Kako izgraditi osobni AI superračunalo na 4 Mac Studio s 512GB, lokalna implementacija Kimi-K2.5 s trilijun parametara

2/26/2026
3 min read

Košta samo 300.000? Kako izgraditi osobni AI superračunalo na 4 Mac Studio s 512GB, lokalna implementacija Kimi-K2.5 s trilijun parametara

U ovom vremenu brzog razvoja velikih modela, svi imamo jedan san: pokrenuti lokalni model s trilijun parametara koji se može mjeriti s GPT-5. No, stvarnost je surova, modeli s trilijun parametara, čak i uz 4-bitnu kvantizaciju, zahtijevaju ogromne količine video memorije. H100, B200 su preskupi, što učiniti?

Danas JamePeng vodi sve nas kroz proces korištenja 4 potpuno opremljena M3 Ultra Mac Studio, putem EXO+MLX i Thunderbolt 5, stvarajući lokalno AI superračunalo s 2TB jedinstvene memorije! Cilj je samo jedan: pokrenuti Kimi-K2.5 model s trilijun parametara lokalno.

Zašto se mučiti?

Nije samo zbog stila, već i zbog privatnosti podataka i maksimalne lokalne kontrole.

Glavno oružje je EXO (GitHub: exo-explore/exo), koji podržava RDMA (daljinski izravni pristup memoriji), omogućujući spajanje jedinstvene memorije 4 Maca u jedan ogroman memorijski bazen.

Popis hardvera: 4 Mac Studio (M3 Ultra, 512GB verzija), ukupna video memorija oko 2TB, povezivanje putem Thunderbolt 5 (120Gbps propusnost), sustav treba macOS Tahoe 26.2 ili noviju verziju.

Korak 1: Omogućite podršku za RDMA

Na svakom Macu:

  • Isključite Mac, uđite u način oporavka (držite tipku za napajanje, odaberite "Opcije" > "Nastavi")
  • Otvorite Terminal, pokrenite: bputil -a rdma
  • Ponovo pokrenite Mac
  • Provjerite: systemprofiler SPThunderboltDataType da biste provjerili je li RDMA omogućeno
Thunderbolt 5 pruža 120Gbps propusnost, savršeno podržava prijenos podataka.

Korak 2: Instalirajte EXO

Instalacija macOS aplikacije: preuzmite EXO-version.dmg s GitHub-a, instalirajte i pokrenite. Otvorite Dashboard i dodajte IP adrese drugih Macova.

Instalacija iz izvornog koda:

  • Instalirajte Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Korak 3: Fizičko povezivanje i topologija

Nemojte koristiti Wi-Fi za umrežavanje! Čak ni Wi-Fi 7 nije dovoljan. Inferencija modela s trilijun parametara izuzetno je osjetljiva na propusnost. Molimo koristite Thunderbolt 5 kabel, postavite jedan Mac kao glavnu čvor (Master), a ostale tri kao radne čvorove (Worker). Preporučuje se zvjezdasta topologija ili lančana povezanost.

U EXO Dashboard-u, trebali biste vidjeti da su 4 uređaja potpuno online, a ukupni memorijski bazen prikazan je kao 2048 GB.

Korak 4: Preuzmite i pokrenite MLX verziju Kimi-K2.5

  • Preuzmite model:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Pokrenite inferencijski motor:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Objašnjenje naredbe:

    • --model: upućuje na direktorij modela
    • --quant 4: koristi 4-bitnu kvantizaciju za smanjenje korištenja memorije
    • --shards auto: EXO automatski inteligentno dijeli model
    • --engine mlx: koristi 76-jezgreni GPU i Neural Engine M3 Ultra za inferenciju

    Konačni rezultat i stvarna mjerenja

    Kada terminal prikazuje "Spremno", imate svoje vlastito AI superračunalo.

    Faza predpunjenja (Prefill): ventilatori 4 Maca počinju lagano ubrzavati (zahvaljujući energetskoj učinkovitosti M3 Ultra, ne dižu se u zrak).

    Faza generiranja (Generation): Tokeni izlaze jedan za drugim.

    Brzina: Iako nije usporediva s H100 klasterom, zahvaljujući RDMA podršci Thunderbolt 5, brzina generiranja tokena može doseći 17-28 tokena/s. To je potpuno interaktivno za model s trilijun parametara!

    Zaključak

    Ovo rješenje nije jeftino, ali dokazuje da uz Apple Silicon i trud otvorene zajednice, decentralizirana AI budućnost dolazi. Ne trebamo slati podatke velikim oblacima, koristeći uređaje koje imamo, možemo izgraditi moćne privatne inferencijske klastere.

    Published in Technology

    You Might Also Like