Kosto vetëm 300,000? Ndërtimi i një superkompjuteri personal AI në 4 Mac Studio 512GB, udhëzues për vendosjen lokale të modelit Kimi-K2.5 me triliona parametra
Kosto vetëm 300,000? Ndërtimi i një superkompjuteri personal AI në 4 Mac Studio 512GB, udhëzues për vendosjen lokale të modelit Kimi-K2.5 me triliona parametra
Në këtë epokë të modeleve të mëdha, të gjithë kemi një ëndërr: të ekzekutojmë një model me triliona parametra që rivalizon nivelin e GPT-5 në nivel lokal. Por realiteti është i ashpër, modelet me triliona parametra, edhe në 4-bit kvantizim, kërkojnë një sasi të madhe memorie grafike. H100, B200 janë shumë të shtrenjta, çfarë të bëjmë nëse nuk mund t'i blejmë?
Sot, JamePeng do t'ju tregojë se si të përdorni 4 Mac Studio M3 Ultra të pajisura plotësisht, përmes EXO+MLX dhe Thunderbolt 5, për të ndërtuar një superkompjuter lokal AI me 2TB memorie të unifikuar! Qëllimi është vetëm një: të ekzekutojmë modelin e madh Kimi-K2.5 me triliona parametra në nivel lokal.
Pse duhet të bëjmë kaq shumë përpjekje?
Jo vetëm për të qenë të ftohtë, por gjithashtu për privatësinë e të dhënave dhe kontrollin ekstrem lokal.
Armët kryesore janë EXO (GitHub: exo-explore/exo), e cila mbështet RDMA (qasje e drejtpërdrejtë në memorien e largët), duke e bërë të mundur bashkimin e memories unike të 4 Mac-ëve në një rezervuar të madh memorie grafike.
Lista e harduerit: 4 Mac Studio (M3 Ultra, versioni me 512GB memorie), me një total prej rreth 2TB memorie grafike, të lidhura përmes Thunderbolt 5 (120Gbps bandwidth), sistemi kërkon macOS Tahoe 26.2 ose version më të ri.
Hapi 1: Aktivizoni mbështetje për RDMA
Veproni në çdo Mac:
- Çoni Mac-in, hyni në modalitetin e rikuperimit (mbani të shtypur butonin e energjisë, zgjidhni "Options" > "Continue")
- Hapni Terminalin, ekzekutoni: bputil -a rdma
- Rinisni Mac-in
- Verifikoni: systemprofiler SPThunderboltDataType kontrolloni aktivizimin e RDMA
Hapi 2: Instaloni EXO
Instalimi i aplikacionit macOS: Shkarkoni EXO-version.dmg nga GitHub, instaloni dhe ekzekutoni. Hapni Dashboard-in dhe shtoni IP-të e Mac-eve të tjera.
Instalimi i kodit burimor:
- Instaloni Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Hapi 3: Lidhja fizike dhe topologjia
Mos përdorni Wi-Fi për të krijuar rrjet! As Wi-Fi 7 nuk është i mjaftueshëm. Inferenca e modeleve me triliona parametra është jashtëzakonisht e ndjeshme ndaj bandwidth-it. Ju lutemi përdorni kabllon Thunderbolt 5, duke e bërë një Mac si nodin kryesor (Master), dhe tre të tjerët si nodet punuese (Worker). Rekomandohet topologjia yll ose lidhja në zinxhir.
Në EXO Dashboard, duhet të shihni 4 pajisje të gjitha online, me rezervuarin total të memories që shfaqet si 2048 GB.
Hapi 4: Shkarkoni dhe ekzekutoni versionin e komunitetit MLX Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Aktivizoni motorin e inferencës:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Shpjegimi i komandës:
- --model: tregon drejtimin e modelit
- --quant 4: përdor 4-bit kvantizim për të reduktuar përdorimin e memories
- --shards auto: EXO ndan automatikisht modelin
- --engine mlx: thërret GPU-në 76-bërthamore dhe Neural Engine të M3 Ultra për inferencë
Efekti përfundimtar dhe testimi
Kur terminali tregon "Ready", ju keni një superkompjuter AI të vetin.
Faza e parashkallëzimit (Prefill): Ventilatorët e 4 Mac-ëve fillojnë të rrisin lehtësisht shpejtësinë (falë efikasitetit të M3 Ultra, nuk do të fluturojnë).
Faza e gjenerimit (Generation): Token-at dalin një pas një.
Shpejtësia: Edhe pse nuk është në nivelin e klasterit H100, falë mbështetjes RDMA të Thunderbolt 5, shpejtësia e gjenerimit të Token-eve mund të arrijë 17-28 tokens/s. Kjo është plotësisht interaktive për një model me triliona parametra!
Përmbledhje
Ky plan nuk është aspak i lirë, por provon se me përpjekjet e Apple Silicon + komunitetit të burimeve të hapura, e ardhmja e AI të decentralizuar po vjen. Ne nuk kemi nevojë të dërgojmë të dhënat te gjigantët e cloud-it, duke përdorur pajisjet që kemi në dorë, mund të ndërtojmë klastere të fuqishme private për inferencë.

