Gumastos lamang ng 300,000? Paano Magtayo ng Personal na AI Supercomputer gamit ang 4 na 512GB Mac Studio, Lokal na Pag-deploy ng Trilyong Parameter Kimi-K2.5
Gumastos lamang ng 300,000? Paano Magtayo ng Personal na AI Supercomputer gamit ang 4 na 512GB Mac Studio, Lokal na Pag-deploy ng Trilyong Parameter Kimi-K2.5
Sa panahong ito ng mabilis na pag-unlad ng malalaking modelo, lahat tayo ay may isang pangarap: patakbuhin ang isang modelo na may trilyong parameter na katumbas ng antas ng GPT-5 sa lokal. Ngunit ang katotohanan ay malupit, ang mga modelo na may trilyong parameter kahit na sa 4-bit na quantization ay nangangailangan ng napakalaking memorya. Ang H100 at B200 ay masyadong mahal, ano ang gagawin kung hindi natin kayang bilhin?
Ngayon, dadalhin tayo ni JamePeng gamit ang 4 na fully-equipped na M3 Ultra Mac Studio, sa pamamagitan ng EXO+MLX at Thunderbolt 5, upang makabuo ng isang lokal na AI supercomputer na may 2TB na unified memory! Isang layunin lamang: patakbuhin ang Kimi-K2.5 na trilyong parameter na malaking modelo sa lokal.
Bakit kailangan pang magpahirap?
Hindi lamang ito para sa astig, kundi para sa privacy ng data at sukdulang kontrol sa lokal.
Ang pangunahing armas ay ang EXO (GitHub: exo-explore/exo), na sumusuporta sa RDMA (Remote Direct Memory Access), na kayang pagsamahin ang unified memory ng 4 na Mac sa isang malaking pool ng memorya.
Listahan ng hardware: 4 na Mac Studio (M3 Ultra, 512GB na bersyon), kabuuang memorya ng video ay humigit-kumulang 2TB, nakakonekta gamit ang Thunderbolt 5 (120Gbps bandwidth), ang sistema ay nangangailangan ng macOS Tahoe 26.2 o mas bagong bersyon.
Hakbang 1: I-enable ang suporta para sa RDMA
Sa bawat Mac, gawin ang mga sumusunod:
- Patayin ang Mac, pumasok sa recovery mode (hawakan ang power button, piliin ang "Options" > "Continue")
- Buksan ang Terminal, patakbuhin: bputil -a rdma
- I-restart ang Mac
- Beripikahin: systemprofiler SPThunderboltDataType upang suriin ang pag-enable ng RDMA
Hakbang 2: I-install ang EXO
Pag-install ng macOS App: I-download ang EXO-version.dmg mula sa GitHub, i-install at patakbuhin. Buksan ang Dashboard at idagdag ang IP ng ibang Mac.
Pag-install mula sa source code:
- I-install ang Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Hakbang 3: Pisikal na koneksyon at topolohiya
Huwag gumamit ng Wi-Fi para sa networking! Kahit na Wi-Fi 7 ay hindi sapat. Ang inference ng trilyong modelo ay labis na sensitibo sa bandwidth. Mangyaring gumamit ng Thunderbolt 5 na cable, itakda ang isang Mac bilang master node, at ang iba pang tatlong bilang worker nodes. Inirerekomenda ang star topology o chain connection.
Sa EXO Dashboard, dapat mong makita ang 4 na device na lahat ay online, ang kabuuang memory pool ay nagpapakita ng 2048 GB.
Hakbang 4: I-download at patakbuhin ang MLX community version ng Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Pagpapaliwanag ng utos:
- --model: tumutukoy sa direktoryo ng modelo
- --quant 4: gumagamit ng 4-bit quantization upang mabawasan ang paggamit ng memorya
- --shards auto: awtomatikong hinahati ng EXO ang modelo
- --engine mlx: tumatawag sa 76-core GPU at Neural Engine ng M3 Ultra para sa inference
Pangwakas na Epekto at Pagsusuri
Kapag ang terminal ay nagpapakita ng Ready, mayroon ka nang sariling AI supercomputer.
Pre-fill na yugto: Ang mga fan ng 4 na Mac ay nagsimulang bahagyang bumilis (salamat sa energy efficiency ng M3 Ultra, hindi ito mag-uumpisa ng mabilis).
Generation na yugto: Ang mga Token ay lumalabas isa-isa.
Bilis: Kahit na hindi kasing bilis ng H100 cluster, ngunit salamat sa RDMA ng Thunderbolt 5, ang bilis ng pagbuo ng Token ay maaaring umabot sa 17-28 tokens/s. Para sa isang modelo na may trilyong parameter, ito ay ganap na interactive!
Buod
Ang set na ito ng solusyon ay tiyak na hindi mura, ngunit pinatunayan nito na sa ilalim ng pagsisikap ng Apple Silicon + open-source community, ang hinaharap ng decentralized AI ay dumarating. Hindi natin kailangang ipadala ang data sa mga higanteng cloud, gamit ang mga device na nasa kamay, maaari tayong bumuo ng malalakas na pribadong inference cluster.

