Дали само 300.000? Как да изградите личен AI суперкомпютър на 4 Mac Studio с 512GB, локално внедряване на Kimi-K2.5 со 1 трилион параметри
Дали само 300.000? Как да изградите личен AI суперкомпютър на 4 Mac Studio с 512GB, локално внедряване на Kimi-K2.5 со 1 трилион параметри
Во ова време на големи модели, сите имаме една мечта: да работиме локално со модел со 1 трилион параметри, кој е споредлив со GPT-5. Но реалноста е сурова, моделите со 1 трилион параметри, дури и со 4-bit квантизација, бараат огромно количество видеопамет. H100 и B200 се премногу скапи, што да правиме?
Денес, JamePeng ќе ни покаже како да изградиме локален AI суперкомпјутер со 4 комплетно опремени M3 Ultra Mac Studio, користејќи EXO+MLX и Thunderbolt 5, создавајќи машина со 2TB унифицирана меморија! Целта е само една: да се покрене Kimi-K2.5 модел со 1 трилион параметри локално.
Зошто да се мачиме толку?
Не само заради кул, туку и заради приватноста на податоците и крајната локална контрола.
Клучното оружје е EXO (GitHub: exo-explore/exo), кое поддржува RDMA (далечински директен пристап до меморијата) и може да ги комбинира унифицираните мемории на 4 Mac во еден огромен базен на видеопамет.
Список на хардвер: 4 Mac Studio (M3 Ultra, верзија со 512GB меморија), вкупна видеопамет околу 2TB, поврзување со Thunderbolt 5 (120Gbps пропусност), системот треба да биде macOS Tahoe 26.2 или понова верзија.
Чекор 1: Вклучување на RDMA поддршка
Извршете ги следниве чекори на секој Mac:
- Исклучете го Mac, влезете во режим на опоравување (долгото држење на копчето за напојување, изберете "Options" > "Continue")
- Отворете Terminal и извршете: bputil -a rdma
- Рестартирајте го Mac
- Верификувајте: systemprofiler SPThunderboltDataType за проверка на RDMA вклучен
Чекор 2: Инсталирање на EXO
Инсталација на macOS апликација: Преземете EXO-version.dmg од GitHub и инсталирајте ја. Отворете Dashboard и додајте IP адреси на другите Mac.
Инсталација на изворен код:
- Инсталирајте Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Чекор 3: Физичко поврзување и топологија
Не користете Wi-Fi за мрежно поврзување! Дури и Wi-Fi 7 не е доволен. Инференцијата на моделот со 1 трилион параметри е многу чувствителна на пропусност. Користете Thunderbolt 5 кабел, поставете еден Mac како главен чвор (Master), а другите три како работни чворови (Worker). Препорачуваме ѕвездообразна топологија или линк поврзување.
Во EXO Dashboard, треба да видите 4 уреди сите онлајн, вкупниот мемориски базен да се прикаже како 2048 GB.
Чекор 4: Преземете и извршете MLX заедничка верзија Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Започнете го инференцискиот мотор:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Објаснување на командата:
- --model: укажува на директориумот на моделот
- --quant 4: користи 4-bit квантизација за намалување на употребата на меморија
- --shards auto: EXO автоматски интелигентно дели моделот
- --engine mlx: повикува 76-јадрен GPU и Neural Engine на M3 Ultra за инференција
Краен ефект и тестирање
Кога терминалот покажува Ready, имате сопствен AI суперкомпјутер.
Фаза на пред-пополнување (Prefill): Вентилаторите на 4 Mac почнуваат да се забрзуваат (благодарение на енергетската ефикасност на M3 Ultra, не се подигнуваат).
Фаза на генерирање (Generation): Токени излегуваат еден по еден.
Брзина: Иако не може да се спореди со H100 кластерот, благодарение на RDMA поддршката на Thunderbolt 5, брзината на генерирање на токени може да достигне 17-28 токени/с. Ова е сосема интерактивно за модел со 1 трилион параметри!
Заклучок
Овој сет на решенија не е евтин, но докажува дека со напорите на Apple Silicon + отворената заедница, иднината на децентрализираниот AI доаѓа. Не треба да ги испраќаме податоците до облачните гиганти, користејќи ги уредите што ги имаме при рака, можеме да изградиме моќни приватни инференциски клостери.

