Витрати лише 300 тисяч? Як побудувати особистий AI суперкомп'ютер на 4-х Mac Studio з 512 ГБ, локальне розгортання моделі Kimi-K2.5 з трильйоном параметрів

У цю епоху бурхливого розвитку великих моделей, у нас усіх є мрія: запустити локально модель з трильйоном параметрів, яка зможе конкурувати з GPT-5. Але реальність жорстока, моделі з трильйоном параметрів, навіть з 4-бітною квантізацією, потребують величезної кількості відеопам'яті. H100, B200 занадто дорогі, що робити, якщо не можеш їх купити?

Сьогодні JamePeng покаже, як за допомогою 4-х повністю укомплектованих Mac Studio M3 Ultra, через EXO+MLX та Thunderbolt 5, створити локальний AI суперкомп'ютер з 2 ТБ об'єднаної пам'яті! Мета лише одна: локально запустити модель Kimi-K2.5 з трильйоном параметрів.

Чому це все робити?

Це не лише для того, щоб бути крутим, а й для збереження конфіденційності даних та абсолютного контролю над локальними ресурсами.

Основна зброя - це EXO (GitHub: exo-explore/exo), який підтримує RDMA (доступ до пам'яті через мережу), що дозволяє об'єднати об'єднану пам'ять 4-х Mac в один величезний пул відеопам'яті.

Список обладнання: 4 Mac Studio (M3 Ultra, версія з 512 ГБ пам'яті), загальна відеопам'ять приблизно 2 ТБ, підключення через Thunderbolt 5 (пропускна здатність 120 Гбіт/с), система потребує macOS Tahoe 26.2 або новішої версії.

Крок 1: Увімкнення підтримки RDMA

На кожному Mac виконайте:

Вимкніть Mac, увійдіть в режим відновлення (утримуйте кнопку живлення, виберіть "Options" > "Continue")
Відкрийте Terminal, виконайте: bputil -a rdma
Перезавантажте Mac
Перевірте: systemprofiler SPThunderboltDataType, щоб перевірити, чи увімкнено RDMA

Thunderbolt 5 забезпечує пропускну здатність 120 Гбіт/с, ідеально підходить для передачі даних.

Крок 2: Встановлення EXO

Встановлення macOS App: завантажте EXO-version.dmg з GitHub, встановіть та запустіть. Відкрийте Dashboard, щоб додати IP інших Mac.

Встановлення з вихідного коду:

Встановіть Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Крок 3: Фізичне підключення та топологія

Не використовуйте Wi-Fi для мережі! Навіть Wi-Fi 7 не підійде. Інференція трильйонної моделі надзвичайно чутлива до пропускної здатності. Будь ласка, використовуйте кабелі Thunderbolt 5, одну з Mac як головний вузол (Master), інші три як робочі вузли (Worker). Рекомендується зіркоподібна топологія або ланцюгове з'єднання.

У EXO Dashboard ви повинні побачити, що 4 пристрої онлайн, загальний пул пам'яті відображається як 2048 ГБ.

Крок 4: Завантаження та запуск версії Kimi-K2.5 від MLX

Завантажте модель:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Запустіть інференційний двигун:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlxРоз'яснення команди:

--model: вказує на каталог моделі
--quant 4: використовує 4-бітну квантізацію для зменшення використання пам'яті
--shards auto: EXO автоматично розумно розподіляє модель
--engine mlx: викликає 76-ядерний GPU та Neural Engine M3 Ultra для інференції

Остаточний результат та вимірювання

Коли термінал відображає Ready, ви маєте свій власний AI суперкомп'ютер.

Етап попереднього заповнення (Prefill): вентилятори 4-х Mac починають трохи прискорюватися (завдяки енергоефективності M3 Ultra, вони не злетять).

Етап генерації (Generation): токени з'являються один за одним.

Швидкість: хоча вона не може зрівнятися з кластером H100, завдяки RDMA Thunderbolt 5 швидкість генерації токенів може досягати 17-28 токенів/с. Це абсолютно інтерактивно для моделі з трильйоном параметрів!

Висновок

Цей варіант абсолютно не дешевий, але він доводить, що завдяки Apple Silicon та зусиллям відкритої спільноти, майбутнє децентралізованого AI вже на горизонті. Нам не потрібно передавати дані великим хмарам, використовуючи доступні пристрої, ми можемо створити потужні приватні інференційні кластери.

Витрати лише 300 тисяч? Як побудувати особистий AI суперкомп'ютер на 4-х Mac Studio з 512 ГБ, локальне розгортання моделі Kimi-K2.5 з трильйоном параметрів

Витрати лише 300 тисяч? Як побудувати особистий AI суперкомп'ютер на 4-х Mac Studio з 512 ГБ, локальне розгортання моделі Kimi-K2.5 з трильйоном параметрів

Чому це все робити?

Крок 1: Увімкнення підтримки RDMA

Крок 2: Встановлення EXO

Крок 3: Фізичне підключення та топологія

Крок 4: Завантаження та запуск версії Kimi-K2.5 від MLX

Остаточний результат та вимірювання

Висновок

You Might Also Like

Claude Code Buddy зміни: як отримати блискучого легендарного улюбленця

Obsidian випустив Defuddle, піднявши Obsidian Web Clipper на новий рівень

OpenAI раптово оголосила про "три в одному": об'єднання браузера, програмування та ChatGPT, внутрішнє визнання помилок минулого року

2026, більше не змушуйте себе "дисциплінуватися"! Зробіть ці 8 простих справ, і здоров'я прийде природно

Ті мами, які намагаються схуднути, але не можуть, безумовно, потрапляють сюди

AI Browser 24 години стабільної роботи: посібник