Csak 300 ezer forint? Személyes AI szuperszámítógép építése 4 db 512GB Mac Studio-n, a billió paraméteres Kimi-K2.5 helyi telepítési útmutatója
Csak 300 ezer forint? Személyes AI szuperszámítógép építése 4 db 512GB Mac Studio-n, a billió paraméteres Kimi-K2.5 helyi telepítési útmutatója
Ebben a nagy modell őrületben mindannyiunknak van egy álma: egy helyben futtatni egy billió paraméteres modellt, amely felér a GPT-5 szintjével. De a valóság kegyetlen, a billió paraméteres modellek még 4-bites kvantálás mellett is hatalmas videomemóriát igényelnek. Az H100 és B200 túl drága, mit tegyünk, ha nem tudjuk megvenni?
Ma JamePeng bemutatja, hogyan lehet 4 db teljesen felszerelt M3 Ultra Mac Studio-t használva, az EXO+MLX és Thunderbolt 5 segítségével, létrehozni egy helyi AI szuperszámítógépet, amely 2TB egységes memóriával rendelkezik! A cél csak egy: helyben futtatni a Kimi-K2.5 billió paraméteres nagy modellt.
Miért kell ezzel bajlódni?
Nemcsak a menőség miatt, hanem az adatok védelme és a maximális helyi kontroll érdekében.
A fő fegyver az EXO (GitHub: exo-explore/exo), amely támogatja az RDMA-t (távoli közvetlen memória hozzáférés), és képes négy Mac egységes memóriáját egy hatalmas videomemória medencévé egyesíteni.
Hardver lista: 4 db Mac Studio (M3 Ultra, 512GB memória verzió), összesen körülbelül 2TB videomemória, Thunderbolt 5 (120Gbps sávszélesség) használatával csatlakoztatva, a rendszernek macOS Tahoe 26.2 vagy újabb verzióra van szüksége.
1. lépés: RDMA támogatás engedélyezése
Minden Mac-en végezze el a következő lépéseket:
- Kapcsolja ki a Mac-et, lépjen helyreállítási módba (nyomja meg a bekapcsoló gombot, válassza az "Options" > "Continue" lehetőséget)
- Nyissa meg a Terminált, futtassa: bputil -a rdma
- Indítsa újra a Mac-et
- Ellenőrizze: systemprofiler SPThunderboltDataType a RDMA engedélyezésének ellenőrzésére
2. lépés: EXO telepítése
macOS alkalmazás telepítése: Töltse le az EXO-version.dmg-t a GitHub-ról, telepítse és futtassa. Nyissa meg a Dashboard-ot, és adja hozzá a többi Mac IP-jét.
Forráskód telepítése:
- Telepítse a Homebrew-t
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
3. lépés: Fizikai csatlakozás és topológia
Ne használjon Wi-Fi-t a hálózatépítéshez! Még a Wi-Fi 7 sem megfelelő. A billió paraméteres modellek inferenciája rendkívül érzékeny a sávszélességre. Kérjük, használjon Thunderbolt 5 kábelt, és állítson be egy Mac-et fő csomópontként (Master), a többi hármat pedig munkacsoportként (Worker). Ajánlott a csillag topológia vagy lánc csatlakozás.
Az EXO Dashboard-on látnia kell, hogy mind a 4 eszköz online van, az összes memória medence 2048 GB-ra van beállítva.
4. lépés: MLX közösségi verzió Kimi-K2.5 letöltése és futtatása
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Indítsa el az inferencia motort:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx parancs elemzése:
- --model: a modell könyvtárra mutat
- --quant 4: 4-bites kvantálás használata a memóriahasználat csökkentésére
- --shards auto: az EXO automatikusan intelligensen felosztja a modellt
- --engine mlx: az M3 Ultra 76 magos GPU-ját és Neural Engine-jét használja az inferenciához
Végső hatás és mérések
Amikor a terminál "Ready" üzenetet mutat, akkor már van egy saját AI szuperszámítógépe.
Előfeltöltési (Prefill) szakasz: 4 Mac ventilátora enyhén felgyorsul (köszönhetően az M3 Ultra energiahatékonyságának, nem fog felszállni).
Generálási (Generation) szakasz: Tokenek egyesével jelennek meg.
Sebesség: Bár nem ér fel az H100 klaszterhez, a Thunderbolt 5 RDMA támogatásának köszönhetően a Token generálási sebesség elérheti a 17-28 token/s-t. Ez egy billió paraméteres modell esetében teljesen interaktív!
Összegzés
Ez a megoldás abszolút nem olcsó, de bizonyítja, hogy az Apple Silicon + nyílt forráskódú közösség erőfeszítéseivel a decentralizált AI jövője már itt van. Nincs szükség arra, hogy az adatokat a felhőóriásoknak adjuk át, a kezünkben lévő eszközökkel erős privát inferencia klasztert építhetünk.

