Разходи само 300 000? Ръководство за локално разполагане на личен AI суперкомпютър с 4 Mac Studio с 512GB, модел Kimi-K2.5 с трилион параметри

2/26/2026
3 min read

Разходи само 300 000? Ръководство за локално разполагане на личен AI суперкомпютър с 4 Mac Studio с 512GB, модел Kimi-K2.5 с трилион параметри

В ерата на големите модели, всички ние имаме мечта: да стартираме локално модел с трилион параметри, сравним с GPT-5. Но реалността е сурова, моделите с трилион параметри, дори и с 4-битова квантизация, изискват огромно количество видеопамет. H100, B200 са твърде скъпи, какво да правим?

Днес JamePeng ще ни покаже как да изградим локален AI суперкомпютър с 2TB обединена памет, използвайки 4 напълно оборудвани M3 Ultra Mac Studio, чрез EXO+MLX и Thunderbolt 5! Целта е само една: да стартираме Kimi-K2.5, модел с трилион параметри, локално.

Защо да се занимаваме с това?

Не само заради готината технология, а и заради защитата на данните и крайната локална контролна власт.

Основното оръжие е EXO (GitHub: exo-explore/exo), което поддържа RDMA (отдалечен достъп до паметта), позволявайки обединяване на обединената памет на 4 Mac в един огромен пул от видеопамет.

Списък с хардуер: 4 Mac Studio (M3 Ultra, версия с 512GB памет), обща видеопамет около 2TB, свързани чрез Thunderbolt 5 (широчина на лентата 120Gbps), системата изисква macOS Tahoe 26.2 или по-нова версия.

Стъпка 1: Активиране на RDMA поддръжка

На всеки Mac:

  • Изключете Mac, влезте в режим на възстановяване (държите бутона за захранване, изберете "Options" > "Continue")
  • Отворете Terminal и изпълнете: bputil -a rdma
  • Рестартирайте Mac
  • Проверете: systemprofiler SPThunderboltDataType за активиране на RDMA
Thunderbolt 5 предлага 120Gbps широчина на лентата, перфектно поддържаща пренос на данни.

Стъпка 2: Инсталиране на EXO

Инсталация на macOS App: Изтеглете EXO-version.dmg от GitHub и инсталирайте. Отворете Dashboard и добавете IP адресите на другите Mac.

Инсталация на изходен код:

  • Инсталирайте Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Стъпка 3: Физическо свързване и топология

Не използвайте Wi-Fi за мрежа! Дори Wi-Fi 7 не е подходящ. Инференцията на модел с трилион параметри е изключително чувствителна към широчината на лентата. Моля, използвайте Thunderbolt 5 кабел, като направите един Mac главен възел (Master) и останалите три работни възли (Worker). Препоръчва се звездна топология или свързване в верига.

В EXO Dashboard трябва да видите 4 устройства, всички онлайн, общият пул от памет трябва да показва 2048 GB.

Стъпка 4: Изтеглете и стартирайте MLX общата версия на Kimi-K2.5

  • Изтеглете модела:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Стартирайте инференционния двигател:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Обяснение на командата:

    • --model: указва директорията на модела
    • --quant 4: използва 4-битова квантизация за намаляване на използването на памет
    • --shards auto: EXO автоматично интелигентно разделя модела
    • --engine mlx: използва 76-ядрения GPU и Neural Engine на M3 Ultra за инференция

    Краен резултат и реални тестове

    Когато терминалът показва Ready, вие вече имате свой собствен AI суперкомпютър.

    Фаза на предварително запълване (Prefill): Вентилаторите на 4-те Mac започват леко да увеличават скоростта (благодарение на енергийната ефективност на M3 Ultra, те няма да излетят).

    Фаза на генериране (Generation): Токени излизат един след друг.

    Скорост: Въпреки че не може да се сравнява с H100 клъстера, благодарение на RDMA поддръжката на Thunderbolt 5, скоростта на генериране на токени може да достигне 17-28 токена/с. Това е напълно интерактивно за модел с трилион параметри!

    Резюме

    Тази система определено не е евтина, но доказва, че с усилията на Apple Silicon + отворената общност, бъдещето на децентрализирания AI идва. Не е нужно да предаваме данните на облачните гиганти, можем да изградим мощни частни инференционни клъстери с наличните устройства.

    Published in Technology

    You Might Also Like

    📝
    Technology

    Claude Code Buddy 修改指南:如何获得闪光传说级宠物

    Claude Code Buddy 修改指南:如何获得闪光传说级宠物 2026年4月1日,Anthropic 在 Claude Code 2.1.89 版本中悄然上线了一个彩蛋功能——/buddy 宠物系统。在终端输入 /buddy 后,一...

    Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново нивоTechnology

    Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново ниво

    Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново ниво Винаги съм харесвал основната концепция на Obsid...

    OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен курс през последната годинаTechnology

    OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен курс през последната година

    OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен ...

    2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естественоHealth

    2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естествено

    2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естествено Нова година...

    Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тукHealth

    Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тук

    Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тук Март вече е наполовина, как върви тв...

    📝
    Technology

    AI Browser 24小时稳定运行指南

    AI Browser 24小时 стабилен режим на работа Този урок представя как да настроите стабилна, дългосрочна среда за работа с AI...