Kosto vetëm 300,000? Ndërtimi i një superkompjuteri personal AI në 4 Mac Studio 512GB, udhëzues për vendosjen lokale të modelit Kimi-K2.5 me triliona parametra

Në këtë epokë të modeleve të mëdha, të gjithë kemi një ëndërr: të ekzekutojmë një model me triliona parametra që rivalizon nivelin e GPT-5 në nivel lokal. Por realiteti është i ashpër, modelet me triliona parametra, edhe në 4-bit kvantizim, kërkojnë një sasi të madhe memorie grafike. H100, B200 janë shumë të shtrenjta, çfarë të bëjmë nëse nuk mund t'i blejmë?

Sot, JamePeng do t'ju tregojë se si të përdorni 4 Mac Studio M3 Ultra të pajisura plotësisht, përmes EXO+MLX dhe Thunderbolt 5, për të ndërtuar një superkompjuter lokal AI me 2TB memorie të unifikuar! Qëllimi është vetëm një: të ekzekutojmë modelin e madh Kimi-K2.5 me triliona parametra në nivel lokal.

Pse duhet të bëjmë kaq shumë përpjekje?

Jo vetëm për të qenë të ftohtë, por gjithashtu për privatësinë e të dhënave dhe kontrollin ekstrem lokal.

Armët kryesore janë EXO (GitHub: exo-explore/exo), e cila mbështet RDMA (qasje e drejtpërdrejtë në memorien e largët), duke e bërë të mundur bashkimin e memories unike të 4 Mac-ëve në një rezervuar të madh memorie grafike.

Lista e harduerit: 4 Mac Studio (M3 Ultra, versioni me 512GB memorie), me një total prej rreth 2TB memorie grafike, të lidhura përmes Thunderbolt 5 (120Gbps bandwidth), sistemi kërkon macOS Tahoe 26.2 ose version më të ri.

Hapi 1: Aktivizoni mbështetje për RDMA

Veproni në çdo Mac:

Çoni Mac-in, hyni në modalitetin e rikuperimit (mbani të shtypur butonin e energjisë, zgjidhni "Options" > "Continue")
Hapni Terminalin, ekzekutoni: bputil -a rdma
Rinisni Mac-in
Verifikoni: systemprofiler SPThunderboltDataType kontrolloni aktivizimin e RDMA

Thunderbolt 5 ofron 120Gbps bandwidth, duke mbështetur perfekt transferimin e të dhënave.

Hapi 2: Instaloni EXO

Instalimi i aplikacionit macOS: Shkarkoni EXO-version.dmg nga GitHub, instaloni dhe ekzekutoni. Hapni Dashboard-in dhe shtoni IP-të e Mac-eve të tjera.

Instalimi i kodit burimor:

Instaloni Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Hapi 3: Lidhja fizike dhe topologjia

Mos përdorni Wi-Fi për të krijuar rrjet! As Wi-Fi 7 nuk është i mjaftueshëm. Inferenca e modeleve me triliona parametra është jashtëzakonisht e ndjeshme ndaj bandwidth-it. Ju lutemi përdorni kabllon Thunderbolt 5, duke e bërë një Mac si nodin kryesor (Master), dhe tre të tjerët si nodet punuese (Worker). Rekomandohet topologjia yll ose lidhja në zinxhir.

Në EXO Dashboard, duhet të shihni 4 pajisje të gjitha online, me rezervuarin total të memories që shfaqet si 2048 GB.

Hapi 4: Shkarkoni dhe ekzekutoni versionin e komunitetit MLX Kimi-K2.5

Shkarkoni modelin:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Aktivizoni motorin e inferencës:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Shpjegimi i komandës:

--model: tregon drejtimin e modelit
--quant 4: përdor 4-bit kvantizim për të reduktuar përdorimin e memories
--shards auto: EXO ndan automatikisht modelin
--engine mlx: thërret GPU-në 76-bërthamore dhe Neural Engine të M3 Ultra për inferencë

Efekti përfundimtar dhe testimi

Kur terminali tregon "Ready", ju keni një superkompjuter AI të vetin.

Faza e parashkallëzimit (Prefill): Ventilatorët e 4 Mac-ëve fillojnë të rrisin lehtësisht shpejtësinë (falë efikasitetit të M3 Ultra, nuk do të fluturojnë).

Faza e gjenerimit (Generation): Token-at dalin një pas një.

Shpejtësia: Edhe pse nuk është në nivelin e klasterit H100, falë mbështetjes RDMA të Thunderbolt 5, shpejtësia e gjenerimit të Token-eve mund të arrijë 17-28 tokens/s. Kjo është plotësisht interaktive për një model me triliona parametra!

Përmbledhje

Ky plan nuk është aspak i lirë, por provon se me përpjekjet e Apple Silicon + komunitetit të burimeve të hapura, e ardhmja e AI të decentralizuar po vjen. Ne nuk kemi nevojë të dërgojmë të dhënat te gjigantët e cloud-it, duke përdorur pajisjet që kemi në dorë, mund të ndërtojmë klastere të fuqishme private për inferencë.

Kosto vetëm 300,000? Ndërtimi i një superkompjuteri personal AI në 4 Mac Studio 512GB, udhëzues për vendosjen lokale të modelit Kimi-K2.5 me triliona parametra

Kosto vetëm 300,000? Ndërtimi i një superkompjuteri personal AI në 4 Mac Studio 512GB, udhëzues për vendosjen lokale të modelit Kimi-K2.5 me triliona parametra

Pse duhet të bëjmë kaq shumë përpjekje?

Hapi 1: Aktivizoni mbështetje për RDMA

Hapi 2: Instaloni EXO

Hapi 3: Lidhja fizike dhe topologjia

Hapi 4: Shkarkoni dhe ekzekutoni versionin e komunitetit MLX Kimi-K2.5

Efekti përfundimtar dhe testimi

Përmbledhje

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian ka lançuar Defuddle, duke e çuar Obsidian Web Clipper në një nivel të ri

OpenAI papritur shpall "tre në një": shkrimi i shfletuesit + programimi + bashkimi i ChatGPT, brenda pranojnë se vitin e kaluar kanë bërë gabime

2026, mos e detyro veten "disiplinë"! Bëni këto 8 gjëra të vogla, shëndeti do të vijë natyrshëm

Mamat që përpiqen të humbin peshë dhe nuk arrijnë, patjetër që kanë rënë këtu

AI Browser 24-orësh Stabiliteti i Udhëzimeve