Csak 300 ezer forint? Személyes AI szuperszámítógép építése 4 db 512GB Mac Studio-n, a billió paraméteres Kimi-K2.5 helyi telepítési útmutatója

2/26/2026
3 min read

Csak 300 ezer forint? Személyes AI szuperszámítógép építése 4 db 512GB Mac Studio-n, a billió paraméteres Kimi-K2.5 helyi telepítési útmutatója

Ebben a nagy modell őrületben mindannyiunknak van egy álma: egy helyben futtatni egy billió paraméteres modellt, amely felér a GPT-5 szintjével. De a valóság kegyetlen, a billió paraméteres modellek még 4-bites kvantálás mellett is hatalmas videomemóriát igényelnek. Az H100 és B200 túl drága, mit tegyünk, ha nem tudjuk megvenni?

Ma JamePeng bemutatja, hogyan lehet 4 db teljesen felszerelt M3 Ultra Mac Studio-t használva, az EXO+MLX és Thunderbolt 5 segítségével, létrehozni egy helyi AI szuperszámítógépet, amely 2TB egységes memóriával rendelkezik! A cél csak egy: helyben futtatni a Kimi-K2.5 billió paraméteres nagy modellt.

Miért kell ezzel bajlódni?

Nemcsak a menőség miatt, hanem az adatok védelme és a maximális helyi kontroll érdekében.

A fő fegyver az EXO (GitHub: exo-explore/exo), amely támogatja az RDMA-t (távoli közvetlen memória hozzáférés), és képes négy Mac egységes memóriáját egy hatalmas videomemória medencévé egyesíteni.

Hardver lista: 4 db Mac Studio (M3 Ultra, 512GB memória verzió), összesen körülbelül 2TB videomemória, Thunderbolt 5 (120Gbps sávszélesség) használatával csatlakoztatva, a rendszernek macOS Tahoe 26.2 vagy újabb verzióra van szüksége.

1. lépés: RDMA támogatás engedélyezése

Minden Mac-en végezze el a következő lépéseket:

  • Kapcsolja ki a Mac-et, lépjen helyreállítási módba (nyomja meg a bekapcsoló gombot, válassza az "Options" > "Continue" lehetőséget)
  • Nyissa meg a Terminált, futtassa: bputil -a rdma
  • Indítsa újra a Mac-et
  • Ellenőrizze: systemprofiler SPThunderboltDataType a RDMA engedélyezésének ellenőrzésére
A Thunderbolt 5 120Gbps sávszélességet biztosít, tökéletesen támogatja az adatátvitelt.

2. lépés: EXO telepítése

macOS alkalmazás telepítése: Töltse le az EXO-version.dmg-t a GitHub-ról, telepítse és futtassa. Nyissa meg a Dashboard-ot, és adja hozzá a többi Mac IP-jét.

Forráskód telepítése:

  • Telepítse a Homebrew-t
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

3. lépés: Fizikai csatlakozás és topológia

Ne használjon Wi-Fi-t a hálózatépítéshez! Még a Wi-Fi 7 sem megfelelő. A billió paraméteres modellek inferenciája rendkívül érzékeny a sávszélességre. Kérjük, használjon Thunderbolt 5 kábelt, és állítson be egy Mac-et fő csomópontként (Master), a többi hármat pedig munkacsoportként (Worker). Ajánlott a csillag topológia vagy lánc csatlakozás.

Az EXO Dashboard-on látnia kell, hogy mind a 4 eszköz online van, az összes memória medence 2048 GB-ra van beállítva.

4. lépés: MLX közösségi verzió Kimi-K2.5 letöltése és futtatása

  • Modell letöltése:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Indítsa el az inferencia motort:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx parancs elemzése:

    • --model: a modell könyvtárra mutat
    • --quant 4: 4-bites kvantálás használata a memóriahasználat csökkentésére
    • --shards auto: az EXO automatikusan intelligensen felosztja a modellt
    • --engine mlx: az M3 Ultra 76 magos GPU-ját és Neural Engine-jét használja az inferenciához

    Végső hatás és mérések

    Amikor a terminál "Ready" üzenetet mutat, akkor már van egy saját AI szuperszámítógépe.

    Előfeltöltési (Prefill) szakasz: 4 Mac ventilátora enyhén felgyorsul (köszönhetően az M3 Ultra energiahatékonyságának, nem fog felszállni).

    Generálási (Generation) szakasz: Tokenek egyesével jelennek meg.

    Sebesség: Bár nem ér fel az H100 klaszterhez, a Thunderbolt 5 RDMA támogatásának köszönhetően a Token generálási sebesség elérheti a 17-28 token/s-t. Ez egy billió paraméteres modell esetében teljesen interaktív!

    Összegzés

    Ez a megoldás abszolút nem olcsó, de bizonyítja, hogy az Apple Silicon + nyílt forráskódú közösség erőfeszítéseivel a decentralizált AI jövője már itt van. Nincs szükség arra, hogy az adatokat a felhőóriásoknak adjuk át, a kezünkben lévő eszközökkel erős privát inferencia klasztert építhetünk.

    Published in Technology

    You Might Also Like