Kostnaður aðeins 300.000? Að byggja persónulegan AI ofur tölvu á 4 Mac Studio með 512GB, leiðbeiningar um staðbundna uppsetningu á Kimi-K2.5 með milljarða breytum
Kostnaður aðeins 300.000? Að byggja persónulegan AI ofur tölvu á 4 Mac Studio með 512GB, leiðbeiningar um staðbundna uppsetningu á Kimi-K2.5 með milljarða breytum
Í þessum tíma stórra líkana höfum við öll draum: að keyra staðbundið líkan með milljarða breytum sem er sambærilegt GPT-5. En raunveruleikinn er grimmur, líkan með milljarða breytum, jafnvel með 4-bit kvörðun, þarf gríðarlegt magn af myndminni. H100, B200 eru of dýrir, hvað á að gera?
Í dag mun JamePeng leiða okkur í gegnum hvernig á að nota 4 fullkomnar M3 Ultra Mac Studio, með EXO+MLX og Thunderbolt 5, til að búa til staðbundna AI ofurtölvu með 2TB sameinað minni! Markmiðið er aðeins eitt: að keyra Kimi-K2.5 líkanið með milljarða breytum á staðnum.
Af hverju að fara í gegnum þetta?
Ekki aðeins til að vera flott, heldur einnig til að vernda gögnin og hafa fullkomna stjórn á staðnum.
Kjarna vopnið er EXO (GitHub: exo-explore/exo), það styður RDMA (Remote Direct Memory Access), sem gerir okkur kleift að sameina sameinað minni 4 Mac í eitt risastórt myndminnisbanka.
Hugbúnaðarlisti: 4 Mac Studio (M3 Ultra, 512GB minni útgáfa), heildar myndminni um 2TB, tengt með Thunderbolt 5 (120Gbps bandbreidd), kerfið þarf að vera macOS Tahoe 26.2 eða nýrri útgáfa.
Skref 1: Virkja RDMA stuðning
Fara í gegnum eftirfarandi skref á hverju Mac:
- Slökktu á Mac, farðu í endurheimtarmód (halda niðri á aflhnappinum, velja "Options" > "Continue")
- Opnaðu Terminal, keyrðu: bputil -a rdma
- Endurræstu Mac
- Staðfestu: systemprofiler SPThunderboltDataType til að athuga hvort RDMA sé virkjað
Skref 2: Setja upp EXO
macOS App uppsetning: Sæktu EXO-version.dmg frá GitHub, settu það upp og keyrðu. Opnaðu Dashboard til að bæta við IP annarra Mac.
Kóðagagnasafn uppsetning:
- Settu upp Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Skref 3: Líkamleg tenging og toppólogi
Ekki nota Wi-Fi til að tengja! Engu að síður, jafnvel Wi-Fi 7 er ekki nóg. Milljarða líkanin eru mjög viðkvæm fyrir bandbreidd. Vinsamlegast notaðu Thunderbolt 5 snúru, þar sem ein Mac er aðalhnútur (Master) og aðrar þrjár eru vinnuhnútur (Worker). Mælt er með stjörnuformi eða keðjutengingu.
Í EXO Dashboard ættirðu að sjá 4 tæki öll á netinu, heildarminni sýnt sem 2048 GB.
Skref 4: Sæktu og keyrðu MLX samfélagsútgáfu Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. Ræstu inntaksmótorinn:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Skýringar á skipun:
- --model: vísar á líkanaskrá
- --quant 4: notar 4-bit kvörðun til að minnka minni notkun
- --shards auto: EXO skynjar sjálfkrafa hvernig á að skera líkanið
- --engine mlx: kallar á 76 kjarna GPU og Neural Engine M3 Ultra til að framkvæma inntak
Lokaniðurstaða og raunprófun
Þegar terminalinn sýnir "Ready", þá átt þú eigin AI ofurtölvu.
Forsýning (Prefill) stig: Viftur 4 Mac byrja að snúast aðeins hraðar (þökk sé orkunýtingu M3 Ultra, þær munu ekki fljúga).
Myndun (Generation) stig: Token koma út eitt af öðru.
Hraði: Þó að það sé ekki eins hratt og H100 klasa, þá er það þökk sé Thunderbolt 5 RDMA, Token myndunarhraði getur náð 17-28 tokens/s. Þetta er alveg gagnvirkt fyrir líkan með milljarða breytum!
Samantekt
Þetta kerfi er örugglega ekki ódýrt, en það sannaði að með Apple Silicon + vinnu opins samfélags er framtíð dreifðrar AI að koma. Við þurfum ekki að senda gögnin til skýrisins, með því að nýta tækin okkar í kringum okkur, getum við byggt upp öfluga einkainntakshópa.

