Стоимость всего 300 тысяч? Как построить личный AI суперкомпьютер на 4-х Mac Studio с 512 ГБ, руководство по локальному развертыванию модели Kimi-K2.5 с триллионом параметров

В эту эпоху стремительного развития больших моделей у нас есть мечта: запустить локально модель с триллионом параметров, сопоставимую с GPT-5. Но реальность жестока: модели с триллионом параметров, даже с 4-битной квантовкой, требуют огромного объема видеопамяти. H100, B200 слишком дорогие, что делать, если не хватает средств?

Сегодня JamePeng покажет, как с помощью 4-х полностью укомплектованных Mac Studio M3 Ultra, используя EXO+MLX и Thunderbolt 5, создать локальный AI суперкомпьютер с 2 ТБ унифицированной памяти! Цель одна: запустить Kimi-K2.5, модель с триллионом параметров, локально.

Почему стоит так заморачиваться?

Это не только ради крутости, но и ради конфиденциальности данных и абсолютного контроля на месте.

Основное оружие — это EXO (GitHub: exo-explore/exo), который поддерживает RDMA (удаленный доступ к памяти), позволяя объединить унифицированную память 4-х Mac в один огромный пул видеопамяти.

Список оборудования: 4 Mac Studio (M3 Ultra, версия с 512 ГБ памяти), общая видеопамять около 2 ТБ, соединение через Thunderbolt 5 (ширина канала 120 Гбит/с), система требует macOS Tahoe 26.2 или более новую версию.

Шаг 1: Включение поддержки RDMA

На каждом Mac выполните:

Выключите Mac, войдите в режим восстановления (удерживайте кнопку питания, выберите "Options" > "Continue")
Откройте Terminal и выполните: bputil -a rdma
Перезагрузите Mac
Проверьте: systemprofiler SPThunderboltDataType, чтобы убедиться, что RDMA включен

Thunderbolt 5 обеспечивает ширину канала 120 Гбит/с, идеально подходит для передачи данных.

Шаг 2: Установка EXO

Установка приложения macOS: загрузите EXO-version.dmg с GitHub, установите и запустите. Откройте Dashboard и добавьте IP других Mac.

Установка из исходного кода:

Установите Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Шаг 3: Физическое соединение и топология

Не используйте Wi-Fi для создания сети! Даже Wi-Fi 7 не подойдет. Инференс триллионной модели крайне чувствителен к пропускной способности. Используйте кабели Thunderbolt 5, назначьте один Mac в качестве главного узла (Master), а остальные три — в качестве рабочих узлов (Worker). Рекомендуется звездчатая топология или цепное соединение.

В EXO Dashboard вы должны увидеть, что все 4 устройства онлайн, общий пул памяти отображается как 2048 ГБ.

Шаг 4: Загрузка и запуск MLX Community версии Kimi-K2.5

Загрузите модель:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Запустите инференс-движок:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Разбор команды:

--model: указывает на каталог модели
--quant 4: использует 4-битную квантовку для уменьшения использования памяти
--shards auto: EXO автоматически умно разбивает модель
--engine mlx: использует 76-ядерный GPU и Neural Engine M3 Ultra для инференса

Итоговый результат и тестирование

Когда терминал показывает Ready, у вас есть собственный AI суперкомпьютер.

Этап предварительной загрузки (Prefill): вентиляторы 4-х Mac начинают слегка ускоряться (благодаря энергоэффективности M3 Ultra, они не взлетают).

Этап генерации (Generation): токены появляются один за другим.

Скорость: хотя она не сравнится с кластером H100, благодаря RDMA Thunderbolt 5 скорость генерации токенов может достигать 17-28 токенов/с. Для модели с триллионом параметров это вполне интерактивно!

Заключение

Этот набор решений определенно не дешев, но он доказывает, что благодаря усилиям Apple Silicon + открытого сообщества будущее децентрализованного AI уже наступает. Нам не нужно передавать данные облачным гигантам, используя доступные устройства, мы можем построить мощный частный кластер для инференса.

Стоимость всего 300 тысяч? Как построить личный AI суперкомпьютер на 4-х Mac Studio с 512 ГБ, руководство по локальному развертыванию модели Kimi-K2.5 с триллионом параметров

Стоимость всего 300 тысяч? Как построить личный AI суперкомпьютер на 4-х Mac Studio с 512 ГБ, руководство по локальному развертыванию модели Kimi-K2.5 с триллионом параметров

Почему стоит так заморачиваться?

Шаг 1: Включение поддержки RDMA

Шаг 2: Установка EXO

Шаг 3: Физическое соединение и топология

Шаг 4: Загрузка и запуск MLX Community версии Kimi-K2.5

Итоговый результат и тестирование

Заключение

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровень

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прошлого года

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собой

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесь

AI Browser 24小时稳定运行指南