Стоимость всего 300 тысяч? Как построить личный AI суперкомпьютер на 4-х Mac Studio с 512 ГБ, руководство по локальному развертыванию модели Kimi-K2.5 с триллионом параметров
Стоимость всего 300 тысяч? Как построить личный AI суперкомпьютер на 4-х Mac Studio с 512 ГБ, руководство по локальному развертыванию модели Kimi-K2.5 с триллионом параметров
В эту эпоху стремительного развития больших моделей у нас есть мечта: запустить локально модель с триллионом параметров, сопоставимую с GPT-5. Но реальность жестока: модели с триллионом параметров, даже с 4-битной квантовкой, требуют огромного объема видеопамяти. H100, B200 слишком дорогие, что делать, если не хватает средств?
Сегодня JamePeng покажет, как с помощью 4-х полностью укомплектованных Mac Studio M3 Ultra, используя EXO+MLX и Thunderbolt 5, создать локальный AI суперкомпьютер с 2 ТБ унифицированной памяти! Цель одна: запустить Kimi-K2.5, модель с триллионом параметров, локально.
Почему стоит так заморачиваться?
Это не только ради крутости, но и ради конфиденциальности данных и абсолютного контроля на месте.
Основное оружие — это EXO (GitHub: exo-explore/exo), который поддерживает RDMA (удаленный доступ к памяти), позволяя объединить унифицированную память 4-х Mac в один огромный пул видеопамяти.
Список оборудования: 4 Mac Studio (M3 Ultra, версия с 512 ГБ памяти), общая видеопамять около 2 ТБ, соединение через Thunderbolt 5 (ширина канала 120 Гбит/с), система требует macOS Tahoe 26.2 или более новую версию.
Шаг 1: Включение поддержки RDMA
На каждом Mac выполните:
- Выключите Mac, войдите в режим восстановления (удерживайте кнопку питания, выберите "Options" > "Continue")
- Откройте Terminal и выполните: bputil -a rdma
- Перезагрузите Mac
- Проверьте: systemprofiler SPThunderboltDataType, чтобы убедиться, что RDMA включен
Шаг 2: Установка EXO
Установка приложения macOS: загрузите EXO-version.dmg с GitHub, установите и запустите. Откройте Dashboard и добавьте IP других Mac.
Установка из исходного кода:
- Установите Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Шаг 3: Физическое соединение и топология
Не используйте Wi-Fi для создания сети! Даже Wi-Fi 7 не подойдет. Инференс триллионной модели крайне чувствителен к пропускной способности. Используйте кабели Thunderbolt 5, назначьте один Mac в качестве главного узла (Master), а остальные три — в качестве рабочих узлов (Worker). Рекомендуется звездчатая топология или цепное соединение.
В EXO Dashboard вы должны увидеть, что все 4 устройства онлайн, общий пул памяти отображается как 2048 ГБ.
Шаг 4: Загрузка и запуск MLX Community версии Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Запустите инференс-движок:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Разбор команды:
- --model: указывает на каталог модели
- --quant 4: использует 4-битную квантовку для уменьшения использования памяти
- --shards auto: EXO автоматически умно разбивает модель
- --engine mlx: использует 76-ядерный GPU и Neural Engine M3 Ultra для инференса
Итоговый результат и тестирование
Когда терминал показывает Ready, у вас есть собственный AI суперкомпьютер.
Этап предварительной загрузки (Prefill): вентиляторы 4-х Mac начинают слегка ускоряться (благодаря энергоэффективности M3 Ultra, они не взлетают).
Этап генерации (Generation): токены появляются один за другим.
Скорость: хотя она не сравнится с кластером H100, благодаря RDMA Thunderbolt 5 скорость генерации токенов может достигать 17-28 токенов/с. Для модели с триллионом параметров это вполне интерактивно!
Заключение
Этот набор решений определенно не дешев, но он доказывает, что благодаря усилиям Apple Silicon + открытого сообщества будущее децентрализованного AI уже наступает. Нам не нужно передавать данные облачным гигантам, используя доступные устройства, мы можем построить мощный частный кластер для инференса.

