Hanya Menghabiskan 300 Ribu? Panduan Pembangunan Superkomputer AI Pribadi dengan 4 Mac Studio 512GB untuk Model Kimi-K2.5 dengan Triliunan Parameter

2/26/2026
3 min read

Hanya Menghabiskan 300 Ribu? Panduan Pembangunan Superkomputer AI Pribadi dengan 4 Mac Studio 512GB untuk Model Kimi-K2.5 dengan Triliunan Parameter

Dalam era model besar yang sedang berkembang pesat ini, kita semua memiliki satu impian: menjalankan model dengan triliunan parameter yang setara dengan tingkat GPT-5 secara lokal. Namun kenyataannya sangat keras, model dengan triliunan parameter bahkan dengan kuantisasi 4-bit memerlukan memori grafis yang sangat besar. H100, B200 terlalu mahal, bagaimana jika tidak mampu membelinya?

Hari ini JamePeng akan membawa kita menggunakan 4 Mac Studio M3 Ultra yang dilengkapi penuh, melalui EXO+MLX dan Thunderbolt 5, untuk membangun superkomputer AI lokal dengan 2TB memori terpadu! Tujuannya hanya satu: menjalankan model besar Kimi-K2.5 dengan triliunan parameter secara lokal.

Mengapa Harus Repot-repot Seperti Ini?

Bukan hanya untuk keren, tetapi juga untuk privasi data dan kontrol lokal yang ekstrem.

Senjata utama adalah EXO (GitHub: exo-explore/exo), yang mendukung RDMA (Remote Direct Memory Access), dapat menggabungkan memori terpadu dari 4 Mac menjadi satu kolam memori grafis yang besar.

Daftar perangkat keras: 4 Mac Studio (M3 Ultra, versi 512GB), total memori grafis sekitar 2TB, terhubung menggunakan Thunderbolt 5 (lebar pita 120Gbps), sistem memerlukan macOS Tahoe 26.2 atau versi yang lebih baru.

Langkah 1: Aktifkan Dukungan RDMA

Lakukan di setiap Mac:

  • Matikan Mac, masuk ke mode pemulihan (tekan dan tahan tombol daya, pilih "Options" > "Continue")
  • Buka Terminal, jalankan: bputil -a rdma
  • Restart Mac
  • Verifikasi: systemprofiler SPThunderboltDataType untuk memeriksa apakah RDMA diaktifkan
Thunderbolt 5 menyediakan lebar pita 120Gbps, sempurna untuk mendukung transfer data.

Langkah 2: Instal EXO

Instalasi aplikasi macOS: Unduh EXO-version.dmg dari GitHub, instal dan jalankan. Buka Dashboard untuk menambahkan IP Mac lainnya.

Instalasi kode sumber:

  • Instal Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Langkah 3: Koneksi Fisik dan Topologi

Jangan gunakan Wi-Fi untuk jaringan! Bahkan Wi-Fi 7 pun tidak cukup. Inferensi model triliunan parameter sangat sensitif terhadap lebar pita. Silakan gunakan kabel Thunderbolt 5, jadikan satu Mac sebagai node utama (Master), dan tiga lainnya sebagai node kerja (Worker). Disarankan menggunakan topologi bintang atau koneksi berantai.

Di EXO Dashboard, Anda seharusnya dapat melihat keempat perangkat online, total kolam memori ditampilkan sebagai 2048 GB.

Langkah 4: Unduh dan Jalankan Versi Komunitas MLX Kimi-K2.5

  • Unduh model:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Mulai mesin inferensi:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Penjelasan perintah:

    • --model: menunjuk ke direktori model
    • --quant 4: menggunakan kuantisasi 4-bit untuk mengurangi penggunaan memori
    • --shards auto: EXO secara otomatis membagi model dengan cerdas
    • --engine mlx: memanggil GPU 76 inti dan Neural Engine dari M3 Ultra untuk inferensi

    Efek Akhir dan Pengujian Nyata

    Ketika terminal menampilkan Ready, Anda telah memiliki superkomputer AI milik Anda sendiri.

    Tahap prefill: Kipas 4 Mac mulai sedikit mempercepat (berkat efisiensi energi M3 Ultra, tidak akan terbang).

    Tahap generasi: Token muncul satu per satu.

    Kecepatan: Meskipun tidak secepat kluster H100, berkat dukungan RDMA dari Thunderbolt 5, kecepatan generasi Token dapat mencapai 17-28 tokens/s. Ini sepenuhnya interaktif untuk model dengan triliunan parameter!

    Kesimpulan

    Rencana ini jelas tidak murah, tetapi membuktikan bahwa dengan usaha dari Apple Silicon + komunitas sumber terbuka, masa depan AI terdesentralisasi sedang datang. Kita tidak perlu mengirim data ke raksasa cloud, dengan perangkat yang ada di tangan kita, kita dapat membangun kluster inferensi pribadi yang kuat.

    Published in Technology

    You Might Also Like