Sadece 300.000 mi? 4 adet 512GB Mac Studio ile kişisel AI süper bilgisayar kurma, trilyon parametreli Kimi-K2.5 yerel dağıtım kılavuzu

2/26/2026
3 min read

Sadece 300.000 mi? 4 adet 512GB Mac Studio ile kişisel AI süper bilgisayar kurma, trilyon parametreli Kimi-K2.5 yerel dağıtım kılavuzu

Bu büyük model çılgınlığı çağında, hepimizin bir hayali var: yerel olarak GPT-5 seviyesinde bir trilyon parametreli modeli çalıştırmak. Ancak gerçek acımasız; trilyon parametreli bir model, 4-bit kuantizasyon olsa bile, muazzam miktarda video belleğe ihtiyaç duyar. H100, B200 çok pahalı, ne yapmalıyız?

Bugün JamePeng, 4 adet tam donanımlı M3 Ultra Mac Studio ile, EXO+MLX ve Thunderbolt 5 kullanarak, 2TB birleşik belleğe sahip bir yerel AI süper bilgisayarı nasıl oluşturacağınızı gösterecek! Tek hedef: yerel olarak Kimi-K2.5 trilyon parametreli büyük modelini çalıştırmak.

Neden bu kadar uğraşıyoruz?

Sadece havalı olduğu için değil, aynı zamanda veri gizliliği ve aşırı yerel kontrol hakkı için.

Ana silahımız EXO (GitHub: exo-explore/exo), RDMA (uzaktan doğrudan bellek erişimi) destekler ve 4 Mac'in birleşik belleğini dev bir video bellek havuzuna dönüştürür.

Donanım listesi: 4 adet Mac Studio (M3 Ultra, 512GB bellek versiyonu), toplam video bellek yaklaşık 2TB, bağlantı için Thunderbolt 5 (120Gbps bant genişliği) kullanılır, sistem macOS Tahoe 26.2 veya daha yeni bir sürüm gerektirir.

Adım 1: RDMA desteğini etkinleştirin

Her Mac'te işlem yapın:

  • Mac'i kapatın, kurtarma moduna girin (güç düğmesine basılı tutun, "Seçenekler" > "Devam" seçin)
  • Terminal'i açın, çalıştırın: bputil -a rdma
  • Mac'i yeniden başlatın
  • Doğrulayın: systemprofiler SPThunderboltDataType ile RDMA'nın etkin olduğunu kontrol edin
Thunderbolt 5, 120Gbps bant genişliği sağlar, veri aktarımını mükemmel şekilde destekler.

Adım 2: EXO'yu yükleyin

macOS Uygulama yükleme: GitHub'dan EXO-version.dmg'yi indirin, yükleyin ve çalıştırın. Dashboard'u açın ve diğer Mac IP'lerini ekleyin.

Kaynak kodu yükleme:

  • Homebrew'u yükleyin
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Adım 3: Fiziksel bağlantı ve topoloji

Wi-Fi ile ağ oluşturmayın! Wi-Fi 7 bile işe yaramaz. Trilyon modelinin çıkarımı bant genişliğine son derece duyarlıdır. Lütfen Thunderbolt 5 kablosu kullanarak bir Mac'i ana düğüm (Master) olarak, diğer üç Mac'i ise iş düğümleri (Worker) olarak ayarlayın. Yıldız topolojisi veya zincir bağlantısı önerilir.

EXO Dashboard'da, 4 cihazın tamamının çevrimiçi olduğunu görmelisiniz, toplam bellek havuzu 2048 GB olarak görünmelidir.

Adım 4: MLX topluluk sürümü Kimi-K2.5'i indirin ve çalıştırın

  • Modeli indirin:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Çıkarma motorunu başlatın:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx komut açıklaması:

    • --model: model dizinine işaret eder
    • --quant 4: bellek kullanımını azaltmak için 4-bit kuantizasyon kullanır
    • --shards auto: EXO otomatik olarak modeli akıllıca böler
    • --engine mlx: çıkarım için M3 Ultra'nın 76 çekirdekli GPU'sunu ve Neural Engine'ini kullanır

    Nihai sonuç ve gerçek test

    Terminal "Hazır" olarak gösterdiğinde, kendi AI süper bilgisayarınıza sahip oldunuz demektir.

    Ön doldurma (Prefill) aşaması: 4 Mac'in fanları hafifçe hızlanmaya başlar (M3 Ultra'nın enerji verimliliği sayesinde, uçuşa geçmez).

    Üretim (Generation) aşaması: Token birbiri ardına çıkmaya başlar.

    Hız: H100 kümesine yetişemese de, Thunderbolt 5'in RDMA desteği sayesinde, Token üretim hızı 17-28 token/s'ye ulaşabilir. Bu, bir trilyon parametreli model için tamamen etkileşimli bir hızdır!

    Özet

    Bu çözüm kesinlikle ucuz değil, ancak Apple Silicon + açık kaynak topluluğunun çabalarıyla, merkeziyetsiz AI'nın geleceğinin geldiğini kanıtlıyor. Verileri bulut devlerine göndermemize gerek yok; elimizdeki cihazları kullanarak güçlü özel çıkarım kümeleri oluşturabiliriz.

    Published in Technology

    You Might Also Like