Gumastos lamang ng 300,000? Paano Magtayo ng Personal na AI Supercomputer gamit ang 4 na 512GB Mac Studio, Lokal na Pag-deploy ng Trilyong Parameter Kimi-K2.5

Sa panahong ito ng mabilis na pag-unlad ng malalaking modelo, lahat tayo ay may isang pangarap: patakbuhin ang isang modelo na may trilyong parameter na katumbas ng antas ng GPT-5 sa lokal. Ngunit ang katotohanan ay malupit, ang mga modelo na may trilyong parameter kahit na sa 4-bit na quantization ay nangangailangan ng napakalaking memorya. Ang H100 at B200 ay masyadong mahal, ano ang gagawin kung hindi natin kayang bilhin?

Ngayon, dadalhin tayo ni JamePeng gamit ang 4 na fully-equipped na M3 Ultra Mac Studio, sa pamamagitan ng EXO+MLX at Thunderbolt 5, upang makabuo ng isang lokal na AI supercomputer na may 2TB na unified memory! Isang layunin lamang: patakbuhin ang Kimi-K2.5 na trilyong parameter na malaking modelo sa lokal.

Bakit kailangan pang magpahirap?

Hindi lamang ito para sa astig, kundi para sa privacy ng data at sukdulang kontrol sa lokal.

Ang pangunahing armas ay ang EXO (GitHub: exo-explore/exo), na sumusuporta sa RDMA (Remote Direct Memory Access), na kayang pagsamahin ang unified memory ng 4 na Mac sa isang malaking pool ng memorya.

Listahan ng hardware: 4 na Mac Studio (M3 Ultra, 512GB na bersyon), kabuuang memorya ng video ay humigit-kumulang 2TB, nakakonekta gamit ang Thunderbolt 5 (120Gbps bandwidth), ang sistema ay nangangailangan ng macOS Tahoe 26.2 o mas bagong bersyon.

Hakbang 1: I-enable ang suporta para sa RDMA

Sa bawat Mac, gawin ang mga sumusunod:

Patayin ang Mac, pumasok sa recovery mode (hawakan ang power button, piliin ang "Options" > "Continue")
Buksan ang Terminal, patakbuhin: bputil -a rdma
I-restart ang Mac
Beripikahin: systemprofiler SPThunderboltDataType upang suriin ang pag-enable ng RDMA

Nagbibigay ang Thunderbolt 5 ng 120Gbps na bandwidth, perpektong sumusuporta sa paglipat ng data.

Hakbang 2: I-install ang EXO

Pag-install ng macOS App: I-download ang EXO-version.dmg mula sa GitHub, i-install at patakbuhin. Buksan ang Dashboard at idagdag ang IP ng ibang Mac.

Pag-install mula sa source code:

I-install ang Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Hakbang 3: Pisikal na koneksyon at topolohiya

Huwag gumamit ng Wi-Fi para sa networking! Kahit na Wi-Fi 7 ay hindi sapat. Ang inference ng trilyong modelo ay labis na sensitibo sa bandwidth. Mangyaring gumamit ng Thunderbolt 5 na cable, itakda ang isang Mac bilang master node, at ang iba pang tatlong bilang worker nodes. Inirerekomenda ang star topology o chain connection.

Sa EXO Dashboard, dapat mong makita ang 4 na device na lahat ay online, ang kabuuang memory pool ay nagpapakita ng 2048 GB.

Hakbang 4: I-download at patakbuhin ang MLX community version ng Kimi-K2.5

I-download ang modelo:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5

Simulan ang inference engine:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Pagpapaliwanag ng utos:

--model: tumutukoy sa direktoryo ng modelo
--quant 4: gumagamit ng 4-bit quantization upang mabawasan ang paggamit ng memorya
--shards auto: awtomatikong hinahati ng EXO ang modelo
--engine mlx: tumatawag sa 76-core GPU at Neural Engine ng M3 Ultra para sa inference

Pangwakas na Epekto at Pagsusuri

Kapag ang terminal ay nagpapakita ng Ready, mayroon ka nang sariling AI supercomputer.

Pre-fill na yugto: Ang mga fan ng 4 na Mac ay nagsimulang bahagyang bumilis (salamat sa energy efficiency ng M3 Ultra, hindi ito mag-uumpisa ng mabilis).

Generation na yugto: Ang mga Token ay lumalabas isa-isa.

Bilis: Kahit na hindi kasing bilis ng H100 cluster, ngunit salamat sa RDMA ng Thunderbolt 5, ang bilis ng pagbuo ng Token ay maaaring umabot sa 17-28 tokens/s. Para sa isang modelo na may trilyong parameter, ito ay ganap na interactive!

Buod

Ang set na ito ng solusyon ay tiyak na hindi mura, ngunit pinatunayan nito na sa ilalim ng pagsisikap ng Apple Silicon + open-source community, ang hinaharap ng decentralized AI ay dumarating. Hindi natin kailangang ipadala ang data sa mga higanteng cloud, gamit ang mga device na nasa kamay, maaari tayong bumuo ng malalakas na pribadong inference cluster.

Gumastos lamang ng 300,000? Paano Magtayo ng Personal na AI Supercomputer gamit ang 4 na 512GB Mac Studio, Lokal na Pag-deploy ng Trilyong Parameter Kimi-K2.5

Gumastos lamang ng 300,000? Paano Magtayo ng Personal na AI Supercomputer gamit ang 4 na 512GB Mac Studio, Lokal na Pag-deploy ng Trilyong Parameter Kimi-K2.5

Bakit kailangan pang magpahirap?

Hakbang 1: I-enable ang suporta para sa RDMA

Hakbang 2: I-install ang EXO

Hakbang 3: Pisikal na koneksyon at topolohiya

Hakbang 4: I-download at patakbuhin ang MLX community version ng Kimi-K2.5

Pangwakas na Epekto at Pagsusuri

Buod

You Might Also Like

Claude Code Buddy Modification Guide: Paano Makakuha ng Shiny Legendary Pet

Obsidian Naglunsad ng Defuddle, Itinataas ang Obsidian Web Clipper sa Isang Bagong Antas

OpenAI biglang nag-anunsyo ng "tatlong sa isa": Pagsasama ng browser + programming + ChatGPT, kinilala ang maling landas sa nakaraang taon

2026, huwag nang pilitin ang sarili sa 'disiplina'! Gawin ang 8 maliliit na bagay na ito, ang kalusugan ay darating nang natural

Ang mga ina na nagsisikap na magbawas ng timbang ngunit hindi nagtagumpay, tiyak na nagkamali dito

AI Browser 24小时稳定运行指南