Разходи само 300 000? Ръководство за локално разполагане на личен AI суперкомпютър с 4 Mac Studio с 512GB, модел Kimi-K2.5 с трилион параметри
Разходи само 300 000? Ръководство за локално разполагане на личен AI суперкомпютър с 4 Mac Studio с 512GB, модел Kimi-K2.5 с трилион параметри
В ерата на големите модели, всички ние имаме мечта: да стартираме локално модел с трилион параметри, сравним с GPT-5. Но реалността е сурова, моделите с трилион параметри, дори и с 4-битова квантизация, изискват огромно количество видеопамет. H100, B200 са твърде скъпи, какво да правим?
Днес JamePeng ще ни покаже как да изградим локален AI суперкомпютър с 2TB обединена памет, използвайки 4 напълно оборудвани M3 Ultra Mac Studio, чрез EXO+MLX и Thunderbolt 5! Целта е само една: да стартираме Kimi-K2.5, модел с трилион параметри, локално.
Защо да се занимаваме с това?
Не само заради готината технология, а и заради защитата на данните и крайната локална контролна власт.
Основното оръжие е EXO (GitHub: exo-explore/exo), което поддържа RDMA (отдалечен достъп до паметта), позволявайки обединяване на обединената памет на 4 Mac в един огромен пул от видеопамет.
Списък с хардуер: 4 Mac Studio (M3 Ultra, версия с 512GB памет), обща видеопамет около 2TB, свързани чрез Thunderbolt 5 (широчина на лентата 120Gbps), системата изисква macOS Tahoe 26.2 или по-нова версия.
Стъпка 1: Активиране на RDMA поддръжка
На всеки Mac:
- Изключете Mac, влезте в режим на възстановяване (държите бутона за захранване, изберете "Options" > "Continue")
- Отворете Terminal и изпълнете: bputil -a rdma
- Рестартирайте Mac
- Проверете: systemprofiler SPThunderboltDataType за активиране на RDMA
Стъпка 2: Инсталиране на EXO
Инсталация на macOS App: Изтеглете EXO-version.dmg от GitHub и инсталирайте. Отворете Dashboard и добавете IP адресите на другите Mac.
Инсталация на изходен код:
- Инсталирайте Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Стъпка 3: Физическо свързване и топология
Не използвайте Wi-Fi за мрежа! Дори Wi-Fi 7 не е подходящ. Инференцията на модел с трилион параметри е изключително чувствителна към широчината на лентата. Моля, използвайте Thunderbolt 5 кабел, като направите един Mac главен възел (Master) и останалите три работни възли (Worker). Препоръчва се звездна топология или свързване в верига.
В EXO Dashboard трябва да видите 4 устройства, всички онлайн, общият пул от памет трябва да показва 2048 GB.
Стъпка 4: Изтеглете и стартирайте MLX общата версия на Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Стартирайте инференционния двигател:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Обяснение на командата:
- --model: указва директорията на модела
- --quant 4: използва 4-битова квантизация за намаляване на използването на памет
- --shards auto: EXO автоматично интелигентно разделя модела
- --engine mlx: използва 76-ядрения GPU и Neural Engine на M3 Ultra за инференция
Краен резултат и реални тестове
Когато терминалът показва Ready, вие вече имате свой собствен AI суперкомпютър.
Фаза на предварително запълване (Prefill): Вентилаторите на 4-те Mac започват леко да увеличават скоростта (благодарение на енергийната ефективност на M3 Ultra, те няма да излетят).
Фаза на генериране (Generation): Токени излизат един след друг.
Скорост: Въпреки че не може да се сравнява с H100 клъстера, благодарение на RDMA поддръжката на Thunderbolt 5, скоростта на генериране на токени може да достигне 17-28 токена/с. Това е напълно интерактивно за модел с трилион параметри!
Резюме
Тази система определено не е евтина, но доказва, че с усилията на Apple Silicon + отворената общност, бъдещето на децентрализирания AI идва. Не е нужно да предаваме данните на облачните гиганти, можем да изградим мощни частни инференционни клъстери с наличните устройства.

