Дали само 300.000? Как да изградите личен AI суперкомпютър на 4 Mac Studio с 512GB, локално внедряване на Kimi-K2.5 со 1 трилион параметри

Во ова време на големи модели, сите имаме една мечта: да работиме локално со модел со 1 трилион параметри, кој е споредлив со GPT-5. Но реалноста е сурова, моделите со 1 трилион параметри, дури и со 4-bit квантизација, бараат огромно количество видеопамет. H100 и B200 се премногу скапи, што да правиме?

Денес, JamePeng ќе ни покаже како да изградиме локален AI суперкомпјутер со 4 комплетно опремени M3 Ultra Mac Studio, користејќи EXO+MLX и Thunderbolt 5, создавајќи машина со 2TB унифицирана меморија! Целта е само една: да се покрене Kimi-K2.5 модел со 1 трилион параметри локално.

Зошто да се мачиме толку?

Не само заради кул, туку и заради приватноста на податоците и крајната локална контрола.

Клучното оружје е EXO (GitHub: exo-explore/exo), кое поддржува RDMA (далечински директен пристап до меморијата) и може да ги комбинира унифицираните мемории на 4 Mac во еден огромен базен на видеопамет.

Список на хардвер: 4 Mac Studio (M3 Ultra, верзија со 512GB меморија), вкупна видеопамет околу 2TB, поврзување со Thunderbolt 5 (120Gbps пропусност), системот треба да биде macOS Tahoe 26.2 или понова верзија.

Чекор 1: Вклучување на RDMA поддршка

Извршете ги следниве чекори на секој Mac:

Исклучете го Mac, влезете во режим на опоравување (долгото држење на копчето за напојување, изберете "Options" > "Continue")
Отворете Terminal и извршете: bputil -a rdma
Рестартирајте го Mac
Верификувајте: systemprofiler SPThunderboltDataType за проверка на RDMA вклучен

Thunderbolt 5 нуди 120Gbps пропусност, совршено поддржува пренос на податоци.

Чекор 2: Инсталирање на EXO

Инсталација на macOS апликација: Преземете EXO-version.dmg од GitHub и инсталирајте ја. Отворете Dashboard и додајте IP адреси на другите Mac.

Инсталација на изворен код:

Инсталирајте Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Чекор 3: Физичко поврзување и топологија

Не користете Wi-Fi за мрежно поврзување! Дури и Wi-Fi 7 не е доволен. Инференцијата на моделот со 1 трилион параметри е многу чувствителна на пропусност. Користете Thunderbolt 5 кабел, поставете еден Mac како главен чвор (Master), а другите три како работни чворови (Worker). Препорачуваме ѕвездообразна топологија или линк поврзување.

Во EXO Dashboard, треба да видите 4 уреди сите онлајн, вкупниот мемориски базен да се прикаже како 2048 GB.

Чекор 4: Преземете и извршете MLX заедничка верзија Kimi-K2.5

Преземете го моделот:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Започнете го инференцискиот мотор:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Објаснување на командата:

--model: укажува на директориумот на моделот
--quant 4: користи 4-bit квантизација за намалување на употребата на меморија
--shards auto: EXO автоматски интелигентно дели моделот
--engine mlx: повикува 76-јадрен GPU и Neural Engine на M3 Ultra за инференција

Краен ефект и тестирање

Кога терминалот покажува Ready, имате сопствен AI суперкомпјутер.

Фаза на пред-пополнување (Prefill): Вентилаторите на 4 Mac почнуваат да се забрзуваат (благодарение на енергетската ефикасност на M3 Ultra, не се подигнуваат).

Фаза на генерирање (Generation): Токени излегуваат еден по еден.

Брзина: Иако не може да се спореди со H100 кластерот, благодарение на RDMA поддршката на Thunderbolt 5, брзината на генерирање на токени може да достигне 17-28 токени/с. Ова е сосема интерактивно за модел со 1 трилион параметри!

Заклучок

Овој сет на решенија не е евтин, но докажува дека со напорите на Apple Silicon + отворената заедница, иднината на децентрализираниот AI доаѓа. Не треба да ги испраќаме податоците до облачните гиганти, користејќи ги уредите што ги имаме при рака, можеме да изградиме моќни приватни инференциски клостери.

Дали само 300.000? Как да изградите личен AI суперкомпютър на 4 Mac Studio с 512GB, локално внедряване на Kimi-K2.5 со 1 трилион параметри

Дали само 300.000? Как да изградите личен AI суперкомпютър на 4 Mac Studio с 512GB, локално внедряване на Kimi-K2.5 со 1 трилион параметри

Зошто да се мачиме толку?

Чекор 1: Вклучување на RDMA поддршка

Чекор 2: Инсталирање на EXO

Чекор 3: Физичко поврзување и топологија

Чекор 4: Преземете и извршете MLX заедничка верзија Kimi-K2.5

Краен ефект и тестирање

Заклучок

You Might Also Like

Claude Code Buddy измена упатство: Како да добиете сјаен легендарен милениче

Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново ниво

OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешниот пат во изминатата година

2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природно

Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тука

AI Browser 24 часов стабилно работење водич