Витрати лише 300 тисяч? Як побудувати особистий AI суперкомп'ютер на 4-х Mac Studio з 512 ГБ, локальне розгортання моделі Kimi-K2.5 з трильйоном параметрів

2/26/2026
3 min read

Витрати лише 300 тисяч? Як побудувати особистий AI суперкомп'ютер на 4-х Mac Studio з 512 ГБ, локальне розгортання моделі Kimi-K2.5 з трильйоном параметрів

У цю епоху бурхливого розвитку великих моделей, у нас усіх є мрія: запустити локально модель з трильйоном параметрів, яка зможе конкурувати з GPT-5. Але реальність жорстока, моделі з трильйоном параметрів, навіть з 4-бітною квантізацією, потребують величезної кількості відеопам'яті. H100, B200 занадто дорогі, що робити, якщо не можеш їх купити?

Сьогодні JamePeng покаже, як за допомогою 4-х повністю укомплектованих Mac Studio M3 Ultra, через EXO+MLX та Thunderbolt 5, створити локальний AI суперкомп'ютер з 2 ТБ об'єднаної пам'яті! Мета лише одна: локально запустити модель Kimi-K2.5 з трильйоном параметрів.

Чому це все робити?

Це не лише для того, щоб бути крутим, а й для збереження конфіденційності даних та абсолютного контролю над локальними ресурсами.

Основна зброя - це EXO (GitHub: exo-explore/exo), який підтримує RDMA (доступ до пам'яті через мережу), що дозволяє об'єднати об'єднану пам'ять 4-х Mac в один величезний пул відеопам'яті.

Список обладнання: 4 Mac Studio (M3 Ultra, версія з 512 ГБ пам'яті), загальна відеопам'ять приблизно 2 ТБ, підключення через Thunderbolt 5 (пропускна здатність 120 Гбіт/с), система потребує macOS Tahoe 26.2 або новішої версії.

Крок 1: Увімкнення підтримки RDMA

На кожному Mac виконайте:

  • Вимкніть Mac, увійдіть в режим відновлення (утримуйте кнопку живлення, виберіть "Options" > "Continue")
  • Відкрийте Terminal, виконайте: bputil -a rdma
  • Перезавантажте Mac
  • Перевірте: systemprofiler SPThunderboltDataType, щоб перевірити, чи увімкнено RDMA
Thunderbolt 5 забезпечує пропускну здатність 120 Гбіт/с, ідеально підходить для передачі даних.

Крок 2: Встановлення EXO

Встановлення macOS App: завантажте EXO-version.dmg з GitHub, встановіть та запустіть. Відкрийте Dashboard, щоб додати IP інших Mac.

Встановлення з вихідного коду:

  • Встановіть Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Крок 3: Фізичне підключення та топологія

Не використовуйте Wi-Fi для мережі! Навіть Wi-Fi 7 не підійде. Інференція трильйонної моделі надзвичайно чутлива до пропускної здатності. Будь ласка, використовуйте кабелі Thunderbolt 5, одну з Mac як головний вузол (Master), інші три як робочі вузли (Worker). Рекомендується зіркоподібна топологія або ланцюгове з'єднання.

У EXO Dashboard ви повинні побачити, що 4 пристрої онлайн, загальний пул пам'яті відображається як 2048 ГБ.

Крок 4: Завантаження та запуск версії Kimi-K2.5 від MLX

  • Завантажте модель:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Запустіть інференційний двигун:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlxРоз'яснення команди:

    • --model: вказує на каталог моделі
    • --quant 4: використовує 4-бітну квантізацію для зменшення використання пам'яті
    • --shards auto: EXO автоматично розумно розподіляє модель
    • --engine mlx: викликає 76-ядерний GPU та Neural Engine M3 Ultra для інференції

    Остаточний результат та вимірювання

    Коли термінал відображає Ready, ви маєте свій власний AI суперкомп'ютер.

    Етап попереднього заповнення (Prefill): вентилятори 4-х Mac починають трохи прискорюватися (завдяки енергоефективності M3 Ultra, вони не злетять).

    Етап генерації (Generation): токени з'являються один за одним.

    Швидкість: хоча вона не може зрівнятися з кластером H100, завдяки RDMA Thunderbolt 5 швидкість генерації токенів може досягати 17-28 токенів/с. Це абсолютно інтерактивно для моделі з трильйоном параметрів!

    Висновок

    Цей варіант абсолютно не дешевий, але він доводить, що завдяки Apple Silicon та зусиллям відкритої спільноти, майбутнє децентралізованого AI вже на горизонті. Нам не потрібно передавати дані великим хмарам, використовуючи доступні пристрої, ми можемо створити потужні приватні інференційні кластери.

    Published in Technology

    You Might Also Like

    📝
    Technology

    Claude Code Buddy зміни: як отримати блискучого легендарного улюбленця

    Claude Code Buddy зміни: як отримати блискучого легендарного улюбленця 1 квітня 2026 року, Anthropic тихо запустила функ...

    Obsidian випустив Defuddle, піднявши Obsidian Web Clipper на новий рівеньTechnology

    Obsidian випустив Defuddle, піднявши Obsidian Web Clipper на новий рівень

    Obsidian випустив Defuddle, піднявши Obsidian Web Clipper на новий рівень Я завжди любив основну ідею Obsidian: локальн...

    OpenAI раптово оголосила про "три в одному": об'єднання браузера, програмування та ChatGPT, внутрішнє визнання помилок минулого рокуTechnology

    OpenAI раптово оголосила про "три в одному": об'єднання браузера, програмування та ChatGPT, внутрішнє визнання помилок минулого року

    OpenAI раптово оголосила про "три в одному": об'єднання браузера, програмування та ChatGPT, внутрішнє визнання помилок м...

    2026, більше не змушуйте себе "дисциплінуватися"! Зробіть ці 8 простих справ, і здоров'я прийде природноHealth

    2026, більше не змушуйте себе "дисциплінуватися"! Зробіть ці 8 простих справ, і здоров'я прийде природно

    2026, більше не змушуйте себе "дисциплінуватися"! Зробіть ці 8 простих справ, і здоров'я прийде природно Новий рік почи...

    Ті мами, які намагаються схуднути, але не можуть, безумовно, потрапляють сюдиHealth

    Ті мами, які намагаються схуднути, але не можуть, безумовно, потрапляють сюди

    Ті мами, які намагаються схуднути, але не можуть, безумовно, потрапляють сюди Травень вже минув, як ваш план схуднення?...

    📝
    Technology

    AI Browser 24 години стабільної роботи: посібник

    AI Browser 24 години стабільної роботи: посібник Цей посібник описує, як налаштувати стабільне, тривале середовище для A...