Hanya menghabiskan 300,000? Panduan penyebaran tempatan Kimi-K2.5 dengan satu superkomputer AI peribadi pada 4 Mac Studio 512GB

2/26/2026
3 min read

Hanya menghabiskan 300,000? Panduan penyebaran tempatan Kimi-K2.5 dengan satu superkomputer AI peribadi pada 4 Mac Studio 512GB

Dalam era model besar yang melambung ini, kita semua mempunyai satu impian: menjalankan model dengan trilion parameter yang setanding dengan tahap GPT-5 secara tempatan. Tetapi realitinya adalah kejam, model dengan trilion parameter walaupun dengan kuantisasi 4-bit, memerlukan memori grafik yang sangat besar. H100, B200 terlalu mahal, bagaimana jika tidak mampu membelinya?

Hari ini JamePeng akan membawa anda menggunakan 4 Mac Studio M3 Ultra yang dilengkapi sepenuhnya, melalui EXO+MLX dan Thunderbolt 5, untuk membina sebuah superkomputer AI tempatan dengan 2TB memori bersatu! Matlamatnya hanya satu: menjalankan model besar Kimi-K2.5 dengan trilion parameter secara tempatan.

Mengapa perlu susah payah begini?

Bukan hanya untuk gaya, tetapi juga untuk privasi data dan kawalan tempatan yang maksimum.

Senjata utama adalah EXO (GitHub: exo-explore/exo), yang menyokong RDMA (Akses Memori Langsung Jauh), dapat menggabungkan memori bersatu 4 Mac menjadi satu kolam memori grafik yang besar.

Senarai perkakasan: 4 Mac Studio (M3 Ultra, versi 512GB), jumlah memori grafik kira-kira 2TB, disambungkan menggunakan Thunderbolt 5 (lebar jalur 120Gbps), sistem memerlukan macOS Tahoe 26.2 atau versi yang lebih baru.

Langkah 1: Mengaktifkan sokongan RDMA

Lakukan pada setiap Mac:

  • Matikan Mac, masuk ke mod pemulihan (tekan butang kuasa, pilih "Options" > "Continue")
  • Buka Terminal, jalankan: bputil -a rdma
  • Mulakan semula Mac
  • Sahkan: systemprofiler SPThunderboltDataType untuk memeriksa RDMA diaktifkan
Thunderbolt 5 menyediakan lebar jalur 120Gbps, menyokong pemindahan data dengan sempurna.

Langkah 2: Pasang EXO

Pemasangan aplikasi macOS: Muat turun EXO-version.dmg dari GitHub, pasang dan jalankan. Buka Dashboard untuk menambah IP Mac lain.

Pemasangan kod sumber:

  • Pasang Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Langkah 3: Sambungan fizikal dan topologi

Jangan gunakan Wi-Fi untuk membina rangkaian! Walaupun Wi-Fi 7 juga tidak mencukupi. Inferens model trilion sangat sensitif terhadap lebar jalur. Sila gunakan kabel Thunderbolt 5, jadikan satu Mac sebagai nod utama (Master), dan tiga yang lain sebagai nod kerja (Worker). Disyorkan topologi bintang atau sambungan berantai.

Dalam Dashboard EXO, anda seharusnya dapat melihat 4 peranti dalam talian, jumlah kolam memori ditunjukkan sebagai 2048 GB.

Langkah 4: Muat turun dan jalankan versi komuniti MLX Kimi-K2.5

  • Muat turun model:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Mulakan enjin inferens:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Penjelasan arahan:

    • --model: merujuk kepada direktori model
    • --quant 4: menggunakan kuantisasi 4-bit untuk mengurangkan penggunaan memori
    • --shards auto: EXO secara automatik membahagikan model
    • --engine mlx: memanggil GPU 76 teras dan Neural Engine M3 Ultra untuk inferens

    Kesan akhir dan pengukuran sebenar

    Apabila terminal menunjukkan Ready, anda telah memiliki superkomputer AI anda sendiri.

    Fasa praisi (Prefill): Kipas 4 Mac mula berputar sedikit lebih laju (berkat kecekapan tenaga M3 Ultra, tidak akan terbang).

    Fasa penghasilan (Generation): Token muncul satu demi satu.

    Kelajuan: Walaupun tidak secepat kluster H100, tetapi berkat sokongan RDMA Thunderbolt 5, kelajuan penghasilan Token boleh mencapai 17-28 tokens/s. Ini adalah interaktif untuk model dengan trilion parameter!

    Kesimpulan

    Penyelesaian ini pasti tidak murah, tetapi ia membuktikan bahawa dengan usaha Apple Silicon + komuniti sumber terbuka, masa depan AI terdesentralisasi sedang tiba. Kita tidak perlu menghantar data kepada gergasi awan, dengan menggunakan peranti yang ada, kita dapat membina kluster inferens peribadi yang kuat.

    Published in Technology

    You Might Also Like