Czy tylko 300 tysięcy? Jak zbudować osobisty superkomputer AI na 4 komputerach Mac Studio 512GB, lokalny przewodnik po wdrożeniu modelu Kimi-K2.5 z bilionem parametrów

2/26/2026
3 min read

Czy tylko 300 tysięcy? Jak zbudować osobisty superkomputer AI na 4 komputerach Mac Studio 512GB, lokalny przewodnik po wdrożeniu modelu Kimi-K2.5 z bilionem parametrów

W erze szaleństwa dużych modeli wszyscy mamy jedno marzenie: uruchomić lokalnie model z bilionem parametrów, który dorównuje poziomowi GPT-5. Ale rzeczywistość jest brutalna, model z bilionem parametrów, nawet przy kwantyzacji 4-bitowej, wymaga ogromnej ilości pamięci wideo. H100, B200 są zbyt drogie, co zrobić?

Dziś JamePeng pokaże, jak za pomocą 4 w pełni wyposażonych komputerów M3 Ultra Mac Studio, poprzez EXO+MLX i Thunderbolt 5, stworzyć lokalny superkomputer AI z 2TB pamięci unifikowanej! Cel jest tylko jeden: uruchomić lokalnie model Kimi-K2.5 z bilionem parametrów.

Dlaczego warto się w to bawić?

Nie tylko dla zabawy, ale także dla prywatności danych i maksymalnej kontroli lokalnej.

Główną bronią jest EXO (GitHub: exo-explore/exo), który wspiera RDMA (zdalny dostęp do pamięci), umożliwiając połączenie pamięci unifikowanej 4 komputerów Mac w jeden ogromny zbiornik pamięci wideo.

Lista sprzętu: 4 komputery Mac Studio (M3 Ultra, wersja z 512GB pamięci), całkowita pamięć wideo wynosi około 2TB, połączenie za pomocą Thunderbolt 5 (szerokość pasma 120Gbps), system wymaga macOS Tahoe 26.2 lub nowszej wersji.

Krok 1: Włącz wsparcie RDMA

Wykonaj na każdym Macu:

  • Wyłącz Maca, wejdź w tryb odzyskiwania (przytrzymaj przycisk zasilania, wybierz "Opcje" > "Kontynuuj")
  • Otwórz Terminal, uruchom: bputil -a rdma
  • Uruchom ponownie Maca
  • Zweryfikuj: systemprofiler SPThunderboltDataType sprawdź, czy RDMA jest włączone
Thunderbolt 5 oferuje 120Gbps szerokości pasma, idealnie wspierając transfer danych.

Krok 2: Zainstaluj EXO

Instalacja aplikacji macOS: Pobierz EXO-version.dmg z GitHub, zainstaluj i uruchom. Otwórz Dashboard, aby dodać IP innych Maców.

Instalacja z kodu źródłowego:

  • Zainstaluj Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Krok 3: Połączenie fizyczne i topologia

Nie używaj Wi-Fi do sieciowania! Nawet Wi-Fi 7 nie wystarczy. Wnioskowanie modelu z bilionem parametrów jest niezwykle wrażliwe na szerokość pasma. Proszę użyć kabla Thunderbolt 5, aby jeden Mac był węzłem głównym (Master), a pozostałe trzy jako węzły robocze (Worker). Zalecana jest topologia gwiazdy lub połączenie szeregowe.

W EXO Dashboard powinieneś zobaczyć 4 urządzenia online, a całkowita pamięć powinna wynosić 2048 GB.

Krok 4: Pobierz i uruchom wersję społecznościową MLX Kimi-K2.5

  • Pobierz model:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Uruchom silnik wnioskowania:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Analiza polecenia:

    • --model: wskazuje na katalog modelu
    • --quant 4: używa kwantyzacji 4-bitowej, aby zmniejszyć zużycie pamięci
    • --shards auto: EXO automatycznie inteligentnie dzieli model
    • --engine mlx: wykorzystuje 76-rdzeniowy GPU i Neural Engine M3 Ultra do wnioskowania

    Ostateczny efekt i pomiar

    Gdy terminal wyświetli Gotowe, masz własny superkomputer AI.

    Faza wstępnego wypełnienia (Prefill): Wentylatory 4 komputerów Mac zaczynają lekko przyspieszać (dzięki efektywności energetycznej M3 Ultra, nie osiągną dużych prędkości).

    Faza generacji (Generation): Tokeny pojawiają się jeden po drugim.

    Prędkość: Choć nie dorównuje klastrom H100, dzięki wsparciu RDMA Thunderbolt 5, prędkość generacji tokenów może osiągnąć 17-28 tokenów/s. To całkowicie interaktywne dla modelu z bilionem parametrów!

    Podsumowanie

    To rozwiązanie zdecydowanie nie jest tanie, ale udowadnia, że dzięki Apple Silicon i wysiłkom społeczności open source, przyszłość zdecentralizowanej AI nadchodzi. Nie musimy przesyłać danych do gigantów chmurowych, wykorzystując dostępne urządzenia, możemy zbudować potężny prywatny klaster wnioskowania.

    Published in Technology

    You Might Also Like