Czy tylko 300 tysięcy? Jak zbudować osobisty superkomputer AI na 4 komputerach Mac Studio 512GB, lokalny przewodnik po wdrożeniu modelu Kimi-K2.5 z bilionem parametrów
Czy tylko 300 tysięcy? Jak zbudować osobisty superkomputer AI na 4 komputerach Mac Studio 512GB, lokalny przewodnik po wdrożeniu modelu Kimi-K2.5 z bilionem parametrów
W erze szaleństwa dużych modeli wszyscy mamy jedno marzenie: uruchomić lokalnie model z bilionem parametrów, który dorównuje poziomowi GPT-5. Ale rzeczywistość jest brutalna, model z bilionem parametrów, nawet przy kwantyzacji 4-bitowej, wymaga ogromnej ilości pamięci wideo. H100, B200 są zbyt drogie, co zrobić?
Dziś JamePeng pokaże, jak za pomocą 4 w pełni wyposażonych komputerów M3 Ultra Mac Studio, poprzez EXO+MLX i Thunderbolt 5, stworzyć lokalny superkomputer AI z 2TB pamięci unifikowanej! Cel jest tylko jeden: uruchomić lokalnie model Kimi-K2.5 z bilionem parametrów.
Dlaczego warto się w to bawić?
Nie tylko dla zabawy, ale także dla prywatności danych i maksymalnej kontroli lokalnej.
Główną bronią jest EXO (GitHub: exo-explore/exo), który wspiera RDMA (zdalny dostęp do pamięci), umożliwiając połączenie pamięci unifikowanej 4 komputerów Mac w jeden ogromny zbiornik pamięci wideo.
Lista sprzętu: 4 komputery Mac Studio (M3 Ultra, wersja z 512GB pamięci), całkowita pamięć wideo wynosi około 2TB, połączenie za pomocą Thunderbolt 5 (szerokość pasma 120Gbps), system wymaga macOS Tahoe 26.2 lub nowszej wersji.
Krok 1: Włącz wsparcie RDMA
Wykonaj na każdym Macu:
- Wyłącz Maca, wejdź w tryb odzyskiwania (przytrzymaj przycisk zasilania, wybierz "Opcje" > "Kontynuuj")
- Otwórz Terminal, uruchom: bputil -a rdma
- Uruchom ponownie Maca
- Zweryfikuj: systemprofiler SPThunderboltDataType sprawdź, czy RDMA jest włączone
Krok 2: Zainstaluj EXO
Instalacja aplikacji macOS: Pobierz EXO-version.dmg z GitHub, zainstaluj i uruchom. Otwórz Dashboard, aby dodać IP innych Maców.
Instalacja z kodu źródłowego:
- Zainstaluj Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Krok 3: Połączenie fizyczne i topologia
Nie używaj Wi-Fi do sieciowania! Nawet Wi-Fi 7 nie wystarczy. Wnioskowanie modelu z bilionem parametrów jest niezwykle wrażliwe na szerokość pasma. Proszę użyć kabla Thunderbolt 5, aby jeden Mac był węzłem głównym (Master), a pozostałe trzy jako węzły robocze (Worker). Zalecana jest topologia gwiazdy lub połączenie szeregowe.
W EXO Dashboard powinieneś zobaczyć 4 urządzenia online, a całkowita pamięć powinna wynosić 2048 GB.
Krok 4: Pobierz i uruchom wersję społecznościową MLX Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Uruchom silnik wnioskowania:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Analiza polecenia:
- --model: wskazuje na katalog modelu
- --quant 4: używa kwantyzacji 4-bitowej, aby zmniejszyć zużycie pamięci
- --shards auto: EXO automatycznie inteligentnie dzieli model
- --engine mlx: wykorzystuje 76-rdzeniowy GPU i Neural Engine M3 Ultra do wnioskowania
Ostateczny efekt i pomiar
Gdy terminal wyświetli Gotowe, masz własny superkomputer AI.
Faza wstępnego wypełnienia (Prefill): Wentylatory 4 komputerów Mac zaczynają lekko przyspieszać (dzięki efektywności energetycznej M3 Ultra, nie osiągną dużych prędkości).
Faza generacji (Generation): Tokeny pojawiają się jeden po drugim.
Prędkość: Choć nie dorównuje klastrom H100, dzięki wsparciu RDMA Thunderbolt 5, prędkość generacji tokenów może osiągnąć 17-28 tokenów/s. To całkowicie interaktywne dla modelu z bilionem parametrów!
Podsumowanie
To rozwiązanie zdecydowanie nie jest tanie, ale udowadnia, że dzięki Apple Silicon i wysiłkom społeczności open source, przyszłość zdecentralizowanej AI nadchodzi. Nie musimy przesyłać danych do gigantów chmurowych, wykorzystując dostępne urządzenia, możemy zbudować potężny prywatny klaster wnioskowania.

