Разходи само 300 000? Ръководство за локално разполагане на личен AI суперкомпютър с 4 Mac Studio с 512GB, модел Kimi-K2.5 с трилион параметри

В ерата на големите модели, всички ние имаме мечта: да стартираме локално модел с трилион параметри, сравним с GPT-5. Но реалността е сурова, моделите с трилион параметри, дори и с 4-битова квантизация, изискват огромно количество видеопамет. H100, B200 са твърде скъпи, какво да правим?

Днес JamePeng ще ни покаже как да изградим локален AI суперкомпютър с 2TB обединена памет, използвайки 4 напълно оборудвани M3 Ultra Mac Studio, чрез EXO+MLX и Thunderbolt 5! Целта е само една: да стартираме Kimi-K2.5, модел с трилион параметри, локално.

Защо да се занимаваме с това?

Не само заради готината технология, а и заради защитата на данните и крайната локална контролна власт.

Основното оръжие е EXO (GitHub: exo-explore/exo), което поддържа RDMA (отдалечен достъп до паметта), позволявайки обединяване на обединената памет на 4 Mac в един огромен пул от видеопамет.

Списък с хардуер: 4 Mac Studio (M3 Ultra, версия с 512GB памет), обща видеопамет около 2TB, свързани чрез Thunderbolt 5 (широчина на лентата 120Gbps), системата изисква macOS Tahoe 26.2 или по-нова версия.

Стъпка 1: Активиране на RDMA поддръжка

На всеки Mac:

Изключете Mac, влезте в режим на възстановяване (държите бутона за захранване, изберете "Options" > "Continue")
Отворете Terminal и изпълнете: bputil -a rdma
Рестартирайте Mac
Проверете: systemprofiler SPThunderboltDataType за активиране на RDMA

Thunderbolt 5 предлага 120Gbps широчина на лентата, перфектно поддържаща пренос на данни.

Стъпка 2: Инсталиране на EXO

Инсталация на macOS App: Изтеглете EXO-version.dmg от GitHub и инсталирайте. Отворете Dashboard и добавете IP адресите на другите Mac.

Инсталация на изходен код:

Инсталирайте Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Стъпка 3: Физическо свързване и топология

Не използвайте Wi-Fi за мрежа! Дори Wi-Fi 7 не е подходящ. Инференцията на модел с трилион параметри е изключително чувствителна към широчината на лентата. Моля, използвайте Thunderbolt 5 кабел, като направите един Mac главен възел (Master) и останалите три работни възли (Worker). Препоръчва се звездна топология или свързване в верига.

В EXO Dashboard трябва да видите 4 устройства, всички онлайн, общият пул от памет трябва да показва 2048 GB.

Стъпка 4: Изтеглете и стартирайте MLX общата версия на Kimi-K2.5

Изтеглете модела:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Стартирайте инференционния двигател:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Обяснение на командата:

--model: указва директорията на модела
--quant 4: използва 4-битова квантизация за намаляване на използването на памет
--shards auto: EXO автоматично интелигентно разделя модела
--engine mlx: използва 76-ядрения GPU и Neural Engine на M3 Ultra за инференция

Краен резултат и реални тестове

Когато терминалът показва Ready, вие вече имате свой собствен AI суперкомпютър.

Фаза на предварително запълване (Prefill): Вентилаторите на 4-те Mac започват леко да увеличават скоростта (благодарение на енергийната ефективност на M3 Ultra, те няма да излетят).

Фаза на генериране (Generation): Токени излизат един след друг.

Скорост: Въпреки че не може да се сравнява с H100 клъстера, благодарение на RDMA поддръжката на Thunderbolt 5, скоростта на генериране на токени може да достигне 17-28 токена/с. Това е напълно интерактивно за модел с трилион параметри!

Резюме

Тази система определено не е евтина, но доказва, че с усилията на Apple Silicon + отворената общност, бъдещето на децентрализирания AI идва. Не е нужно да предаваме данните на облачните гиганти, можем да изградим мощни частни инференционни клъстери с наличните устройства.

Разходи само 300 000? Ръководство за локално разполагане на личен AI суперкомпютър с 4 Mac Studio с 512GB, модел Kimi-K2.5 с трилион параметри

Разходи само 300 000? Ръководство за локално разполагане на личен AI суперкомпютър с 4 Mac Studio с 512GB, модел Kimi-K2.5 с трилион параметри

Защо да се занимаваме с това?

Стъпка 1: Активиране на RDMA поддръжка

Стъпка 2: Инсталиране на EXO

Стъпка 3: Физическо свързване и топология

Стъпка 4: Изтеглете и стартирайте MLX общата версия на Kimi-K2.5

Краен резултат и реални тестове

Резюме

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново ниво

OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен курс през последната година

2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естествено

Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тук

AI Browser 24小时稳定运行指南