Czy tylko 300 tysięcy? Jak zbudować osobisty superkomputer AI na 4 komputerach Mac Studio 512GB, lokalny przewodnik po wdrożeniu modelu Kimi-K2.5 z bilionem parametrów

W erze szaleństwa dużych modeli wszyscy mamy jedno marzenie: uruchomić lokalnie model z bilionem parametrów, który dorównuje poziomowi GPT-5. Ale rzeczywistość jest brutalna, model z bilionem parametrów, nawet przy kwantyzacji 4-bitowej, wymaga ogromnej ilości pamięci wideo. H100, B200 są zbyt drogie, co zrobić?

Dziś JamePeng pokaże, jak za pomocą 4 w pełni wyposażonych komputerów M3 Ultra Mac Studio, poprzez EXO+MLX i Thunderbolt 5, stworzyć lokalny superkomputer AI z 2TB pamięci unifikowanej! Cel jest tylko jeden: uruchomić lokalnie model Kimi-K2.5 z bilionem parametrów.

Dlaczego warto się w to bawić?

Nie tylko dla zabawy, ale także dla prywatności danych i maksymalnej kontroli lokalnej.

Główną bronią jest EXO (GitHub: exo-explore/exo), który wspiera RDMA (zdalny dostęp do pamięci), umożliwiając połączenie pamięci unifikowanej 4 komputerów Mac w jeden ogromny zbiornik pamięci wideo.

Lista sprzętu: 4 komputery Mac Studio (M3 Ultra, wersja z 512GB pamięci), całkowita pamięć wideo wynosi około 2TB, połączenie za pomocą Thunderbolt 5 (szerokość pasma 120Gbps), system wymaga macOS Tahoe 26.2 lub nowszej wersji.

Krok 1: Włącz wsparcie RDMA

Wykonaj na każdym Macu:

Wyłącz Maca, wejdź w tryb odzyskiwania (przytrzymaj przycisk zasilania, wybierz "Opcje" > "Kontynuuj")
Otwórz Terminal, uruchom: bputil -a rdma
Uruchom ponownie Maca
Zweryfikuj: systemprofiler SPThunderboltDataType sprawdź, czy RDMA jest włączone

Thunderbolt 5 oferuje 120Gbps szerokości pasma, idealnie wspierając transfer danych.

Krok 2: Zainstaluj EXO

Instalacja aplikacji macOS: Pobierz EXO-version.dmg z GitHub, zainstaluj i uruchom. Otwórz Dashboard, aby dodać IP innych Maców.

Instalacja z kodu źródłowego:

Zainstaluj Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Krok 3: Połączenie fizyczne i topologia

Nie używaj Wi-Fi do sieciowania! Nawet Wi-Fi 7 nie wystarczy. Wnioskowanie modelu z bilionem parametrów jest niezwykle wrażliwe na szerokość pasma. Proszę użyć kabla Thunderbolt 5, aby jeden Mac był węzłem głównym (Master), a pozostałe trzy jako węzły robocze (Worker). Zalecana jest topologia gwiazdy lub połączenie szeregowe.

W EXO Dashboard powinieneś zobaczyć 4 urządzenia online, a całkowita pamięć powinna wynosić 2048 GB.

Krok 4: Pobierz i uruchom wersję społecznościową MLX Kimi-K2.5

Pobierz model:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Uruchom silnik wnioskowania:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Analiza polecenia:

--model: wskazuje na katalog modelu
--quant 4: używa kwantyzacji 4-bitowej, aby zmniejszyć zużycie pamięci
--shards auto: EXO automatycznie inteligentnie dzieli model
--engine mlx: wykorzystuje 76-rdzeniowy GPU i Neural Engine M3 Ultra do wnioskowania

Ostateczny efekt i pomiar

Gdy terminal wyświetli Gotowe, masz własny superkomputer AI.

Faza wstępnego wypełnienia (Prefill): Wentylatory 4 komputerów Mac zaczynają lekko przyspieszać (dzięki efektywności energetycznej M3 Ultra, nie osiągną dużych prędkości).

Faza generacji (Generation): Tokeny pojawiają się jeden po drugim.

Prędkość: Choć nie dorównuje klastrom H100, dzięki wsparciu RDMA Thunderbolt 5, prędkość generacji tokenów może osiągnąć 17-28 tokenów/s. To całkowicie interaktywne dla modelu z bilionem parametrów!

Podsumowanie

To rozwiązanie zdecydowanie nie jest tanie, ale udowadnia, że dzięki Apple Silicon i wysiłkom społeczności open source, przyszłość zdecentralizowanej AI nadchodzi. Nie musimy przesyłać danych do gigantów chmurowych, wykorzystując dostępne urządzenia, możemy zbudować potężny prywatny klaster wnioskowania.

Czy tylko 300 tysięcy? Jak zbudować osobisty superkomputer AI na 4 komputerach Mac Studio 512GB, lokalny przewodnik po wdrożeniu modelu Kimi-K2.5 z bilionem parametrów

Czy tylko 300 tysięcy? Jak zbudować osobisty superkomputer AI na 4 komputerach Mac Studio 512GB, lokalny przewodnik po wdrożeniu modelu Kimi-K2.5 z bilionem parametrów

Dlaczego warto się w to bawić?

Krok 1: Włącz wsparcie RDMA

Krok 2: Zainstaluj EXO

Krok 3: Połączenie fizyczne i topologia

Krok 4: Pobierz i uruchom wersję społecznościową MLX Kimi-K2.5

Ostateczny efekt i pomiar

Podsumowanie

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian wprowadził Defuddle, podnosząc Obsidian Web Clipper na nowy poziom

OpenAI nagle ogłasza "trzy w jednym": połączenie przeglądarki + programowania + ChatGPT, wewnętrznie przyznaje, że w ciągu ostatniego roku popełniło błąd

2026, nie zmuszaj się do 'dyscypliny'! Zrób te 8 małych rzeczy, a zdrowie przyjdzie naturalnie

Te mamy, które ciężko pracują nad odchudzaniem, ale nie mogą schudnąć, na pewno mają problem tutaj

AI Browser 24小时稳定运行指南