Витрати лише 300 тисяч? Як побудувати особистий AI суперкомп'ютер на 4-х Mac Studio з 512 ГБ, локальне розгортання моделі Kimi-K2.5 з трильйоном параметрів
Витрати лише 300 тисяч? Як побудувати особистий AI суперкомп'ютер на 4-х Mac Studio з 512 ГБ, локальне розгортання моделі Kimi-K2.5 з трильйоном параметрів
У цю епоху бурхливого розвитку великих моделей, у нас усіх є мрія: запустити локально модель з трильйоном параметрів, яка зможе конкурувати з GPT-5. Але реальність жорстока, моделі з трильйоном параметрів, навіть з 4-бітною квантізацією, потребують величезної кількості відеопам'яті. H100, B200 занадто дорогі, що робити, якщо не можеш їх купити?
Сьогодні JamePeng покаже, як за допомогою 4-х повністю укомплектованих Mac Studio M3 Ultra, через EXO+MLX та Thunderbolt 5, створити локальний AI суперкомп'ютер з 2 ТБ об'єднаної пам'яті! Мета лише одна: локально запустити модель Kimi-K2.5 з трильйоном параметрів.
Чому це все робити?
Це не лише для того, щоб бути крутим, а й для збереження конфіденційності даних та абсолютного контролю над локальними ресурсами.
Основна зброя - це EXO (GitHub: exo-explore/exo), який підтримує RDMA (доступ до пам'яті через мережу), що дозволяє об'єднати об'єднану пам'ять 4-х Mac в один величезний пул відеопам'яті.
Список обладнання: 4 Mac Studio (M3 Ultra, версія з 512 ГБ пам'яті), загальна відеопам'ять приблизно 2 ТБ, підключення через Thunderbolt 5 (пропускна здатність 120 Гбіт/с), система потребує macOS Tahoe 26.2 або новішої версії.
Крок 1: Увімкнення підтримки RDMA
На кожному Mac виконайте:
- Вимкніть Mac, увійдіть в режим відновлення (утримуйте кнопку живлення, виберіть "Options" > "Continue")
- Відкрийте Terminal, виконайте: bputil -a rdma
- Перезавантажте Mac
- Перевірте: systemprofiler SPThunderboltDataType, щоб перевірити, чи увімкнено RDMA
Крок 2: Встановлення EXO
Встановлення macOS App: завантажте EXO-version.dmg з GitHub, встановіть та запустіть. Відкрийте Dashboard, щоб додати IP інших Mac.
Встановлення з вихідного коду:
- Встановіть Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Крок 3: Фізичне підключення та топологія
Не використовуйте Wi-Fi для мережі! Навіть Wi-Fi 7 не підійде. Інференція трильйонної моделі надзвичайно чутлива до пропускної здатності. Будь ласка, використовуйте кабелі Thunderbolt 5, одну з Mac як головний вузол (Master), інші три як робочі вузли (Worker). Рекомендується зіркоподібна топологія або ланцюгове з'єднання.
У EXO Dashboard ви повинні побачити, що 4 пристрої онлайн, загальний пул пам'яті відображається як 2048 ГБ.
Крок 4: Завантаження та запуск версії Kimi-K2.5 від MLX
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Запустіть інференційний двигун:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlxРоз'яснення команди:
- --model: вказує на каталог моделі
- --quant 4: використовує 4-бітну квантізацію для зменшення використання пам'яті
- --shards auto: EXO автоматично розумно розподіляє модель
- --engine mlx: викликає 76-ядерний GPU та Neural Engine M3 Ultra для інференції
Остаточний результат та вимірювання
Коли термінал відображає Ready, ви маєте свій власний AI суперкомп'ютер.
Етап попереднього заповнення (Prefill): вентилятори 4-х Mac починають трохи прискорюватися (завдяки енергоефективності M3 Ultra, вони не злетять).
Етап генерації (Generation): токени з'являються один за одним.
Швидкість: хоча вона не може зрівнятися з кластером H100, завдяки RDMA Thunderbolt 5 швидкість генерації токенів може досягати 17-28 токенів/с. Це абсолютно інтерактивно для моделі з трильйоном параметрів!
Висновок
Цей варіант абсолютно не дешевий, але він доводить, що завдяки Apple Silicon та зусиллям відкритої спільноти, майбутнє децентралізованого AI вже на горизонті. Нам не потрібно передавати дані великим хмарам, використовуючи доступні пристрої, ми можемо створити потужні приватні інференційні кластери.

