Koster kun 300.000? Byg en personlig AI supercomputer med 4 stk. 512GB Mac Studio, guide til lokal implementering af trillion parameter Kimi-K2.5

2/26/2026
3 min read

Koster kun 300.000? Byg en personlig AI supercomputer med 4 stk. 512GB Mac Studio, guide til lokal implementering af trillion parameter Kimi-K2.5

I denne tid med store modeller har vi alle en drøm: At køre en trillion parameter model på niveau med GPT-5 lokalt. Men virkeligheden er brutal, selv en 4-bit kvantificeret model kræver enorme mængder videohukommelse. H100, B200 er for dyre, hvad skal man gøre?

I dag tager JamePeng os med til at bruge 4 fuldt udstyrede M3 Ultra Mac Studio, gennem EXO+MLX og Thunderbolt 5, og skaber en lokal AI supercomputer med 2TB samlet hukommelse! Målet er enkelt: At køre Kimi-K2.5 trillion parameter stor model lokalt.

Hvorfor gøre det på denne måde?

Ikke kun for sjov, men også for dataprivacy og ekstrem lokal kontrol.

Det centrale værktøj er EXO (GitHub: exo-explore/exo), som understøtter RDMA (Remote Direct Memory Access), der kan fusionere den samlede hukommelse fra 4 Mac'er til en stor videohukommelsespulje.

Hardwareliste: 4 Mac Studio (M3 Ultra, 512GB hukommelsesversion), samlet videohukommelse på ca. 2TB, tilslutning via Thunderbolt 5 (120Gbps båndbredde), systemet skal være macOS Tahoe 26.2 eller nyere.

Trin 1: Aktivér RDMA understøttelse

Udfør på hver Mac:

  • Sluk Mac'en, gå ind i gendannelsestilstand (hold tænd/sluk-knappen nede, vælg "Options" > "Continue")
  • Åbn Terminal, kør: bputil -a rdma
  • Genstart Mac'en
  • Bekræft: systemprofiler SPThunderboltDataType for at tjekke RDMA aktiveret
Thunderbolt 5 tilbyder 120Gbps båndbredde, perfekt til datatransmission.

Trin 2: Installer EXO

macOS App installation: Download EXO-version.dmg fra GitHub, installer og kør. Åbn Dashboard for at tilføje IP-adresser på andre Mac'er.

Kildekode installation:

  • Installer Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Trin 3: Fysisk forbindelse og topologi

Brug ikke Wi-Fi til netværk! Selv Wi-Fi 7 er ikke tilstrækkeligt. Trillion model inference er ekstremt båndbreddefølsom. Brug venligst Thunderbolt 5 kabler, og gør en Mac til hovednode (Master), de andre tre som arbejdsenheder (Worker). Anbefalet stjernetopologi eller kædeforbindelse.

I EXO Dashboard bør du kunne se, at alle 4 enheder er online, og den samlede hukommelsespulje vises som 2048 GB.

Trin 4: Download og kør MLX community version Kimi-K2.5

  • Download modellen:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Start inference motor:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Kommando forklaring:

    • --model: peger på modelmappen
    • --quant 4: bruger 4-bit kvantificering for at reducere hukommelsesforbruget
    • --shards auto: EXO opdeler automatisk modellen intelligent
    • --engine mlx: kalder M3 Ultra's 76-core GPU og Neural Engine til inference

    Slutresultat og målinger

    Når terminalen viser Ready, har du din egen AI supercomputer.

    Forudfyldningsfase: 4 Mac'ers blæsere begynder at accelerere let (takket være M3 Ultra's energieffektivitet, vil de ikke flyve).

    Genereringsfase: Tokens springer ud en efter en.

    Hastighed: Selvom det ikke kan konkurrere med H100 klynger, kan token genereringshastigheden nå 17-28 tokens/s takket være Thunderbolt 5's RDMA støtte. Dette er helt interaktivt for en trillion parameter model!

    Konklusion

    Denne løsning er bestemt ikke billig, men den beviser, at med Apple Silicon + open source samfundets indsats, er fremtiden for decentraliseret AI ved at komme. Vi behøver ikke at sende data til cloud-giganter, ved at bruge de enheder vi har ved hånden, kan vi opbygge kraftfulde private inference klynger.

    Published in Technology

    You Might Also Like