Стоимость всего 300 тысяч? Как построить личный AI суперкомпьютер на 4-х Mac Studio с 512 ГБ, руководство по локальному развертыванию модели Kimi-K2.5 с триллионом параметров

2/26/2026
3 min read

Стоимость всего 300 тысяч? Как построить личный AI суперкомпьютер на 4-х Mac Studio с 512 ГБ, руководство по локальному развертыванию модели Kimi-K2.5 с триллионом параметров

В эту эпоху стремительного развития больших моделей у нас есть мечта: запустить локально модель с триллионом параметров, сопоставимую с GPT-5. Но реальность жестока: модели с триллионом параметров, даже с 4-битной квантовкой, требуют огромного объема видеопамяти. H100, B200 слишком дорогие, что делать, если не хватает средств?

Сегодня JamePeng покажет, как с помощью 4-х полностью укомплектованных Mac Studio M3 Ultra, используя EXO+MLX и Thunderbolt 5, создать локальный AI суперкомпьютер с 2 ТБ унифицированной памяти! Цель одна: запустить Kimi-K2.5, модель с триллионом параметров, локально.

Почему стоит так заморачиваться?

Это не только ради крутости, но и ради конфиденциальности данных и абсолютного контроля на месте.

Основное оружие — это EXO (GitHub: exo-explore/exo), который поддерживает RDMA (удаленный доступ к памяти), позволяя объединить унифицированную память 4-х Mac в один огромный пул видеопамяти.

Список оборудования: 4 Mac Studio (M3 Ultra, версия с 512 ГБ памяти), общая видеопамять около 2 ТБ, соединение через Thunderbolt 5 (ширина канала 120 Гбит/с), система требует macOS Tahoe 26.2 или более новую версию.

Шаг 1: Включение поддержки RDMA

На каждом Mac выполните:

  • Выключите Mac, войдите в режим восстановления (удерживайте кнопку питания, выберите "Options" > "Continue")
  • Откройте Terminal и выполните: bputil -a rdma
  • Перезагрузите Mac
  • Проверьте: systemprofiler SPThunderboltDataType, чтобы убедиться, что RDMA включен
Thunderbolt 5 обеспечивает ширину канала 120 Гбит/с, идеально подходит для передачи данных.

Шаг 2: Установка EXO

Установка приложения macOS: загрузите EXO-version.dmg с GitHub, установите и запустите. Откройте Dashboard и добавьте IP других Mac.

Установка из исходного кода:

  • Установите Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Шаг 3: Физическое соединение и топология

Не используйте Wi-Fi для создания сети! Даже Wi-Fi 7 не подойдет. Инференс триллионной модели крайне чувствителен к пропускной способности. Используйте кабели Thunderbolt 5, назначьте один Mac в качестве главного узла (Master), а остальные три — в качестве рабочих узлов (Worker). Рекомендуется звездчатая топология или цепное соединение.

В EXO Dashboard вы должны увидеть, что все 4 устройства онлайн, общий пул памяти отображается как 2048 ГБ.

Шаг 4: Загрузка и запуск MLX Community версии Kimi-K2.5

  • Загрузите модель:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Запустите инференс-движок:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Разбор команды:

    • --model: указывает на каталог модели
    • --quant 4: использует 4-битную квантовку для уменьшения использования памяти
    • --shards auto: EXO автоматически умно разбивает модель
    • --engine mlx: использует 76-ядерный GPU и Neural Engine M3 Ultra для инференса

    Итоговый результат и тестирование

    Когда терминал показывает Ready, у вас есть собственный AI суперкомпьютер.

    Этап предварительной загрузки (Prefill): вентиляторы 4-х Mac начинают слегка ускоряться (благодаря энергоэффективности M3 Ultra, они не взлетают).

    Этап генерации (Generation): токены появляются один за другим.

    Скорость: хотя она не сравнится с кластером H100, благодаря RDMA Thunderbolt 5 скорость генерации токенов может достигать 17-28 токенов/с. Для модели с триллионом параметров это вполне интерактивно!

    Заключение

    Этот набор решений определенно не дешев, но он доказывает, что благодаря усилиям Apple Silicon + открытого сообщества будущее децентрализованного AI уже наступает. Нам не нужно передавать данные облачным гигантам, используя доступные устройства, мы можем построить мощный частный кластер для инференса.

    Published in Technology

    You Might Also Like

    📝
    Technology

    Claude Code Buddy 修改指南:如何获得闪光传说级宠物

    Claude Code Buddy 修改指南:如何获得闪光传说级宠物 2026年4月1日,Anthropic 在 Claude Code 2.1.89 版本中悄然上线了一个彩蛋功能——/buddy 宠物系统。在终端输入 /buddy 后,一...

    Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровеньTechnology

    Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровень

    Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровень Мне всегда нравилась основная идея Obsidian: п...

    OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прошлого годаTechnology

    OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прошлого года

    OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прош...

    2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собойHealth

    2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собой

    2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собой Новый...

    Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесьHealth

    Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесь

    Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесь Март уже почти прошел, как у вас...

    📝
    Technology

    AI Browser 24小时稳定运行指南

    AI Browser 24小时稳定运行指南 Этот учебник описывает, как создать стабильную, долгосрочную среду для AI браузера. Подходит для A...