Дали само 300.000? Как да изградите личен AI суперкомпютър на 4 Mac Studio с 512GB, локално внедряване на Kimi-K2.5 со 1 трилион параметри

2/26/2026
3 min read

Дали само 300.000? Как да изградите личен AI суперкомпютър на 4 Mac Studio с 512GB, локално внедряване на Kimi-K2.5 со 1 трилион параметри

Во ова време на големи модели, сите имаме една мечта: да работиме локално со модел со 1 трилион параметри, кој е споредлив со GPT-5. Но реалноста е сурова, моделите со 1 трилион параметри, дури и со 4-bit квантизација, бараат огромно количество видеопамет. H100 и B200 се премногу скапи, што да правиме?

Денес, JamePeng ќе ни покаже како да изградиме локален AI суперкомпјутер со 4 комплетно опремени M3 Ultra Mac Studio, користејќи EXO+MLX и Thunderbolt 5, создавајќи машина со 2TB унифицирана меморија! Целта е само една: да се покрене Kimi-K2.5 модел со 1 трилион параметри локално.

Зошто да се мачиме толку?

Не само заради кул, туку и заради приватноста на податоците и крајната локална контрола.

Клучното оружје е EXO (GitHub: exo-explore/exo), кое поддржува RDMA (далечински директен пристап до меморијата) и може да ги комбинира унифицираните мемории на 4 Mac во еден огромен базен на видеопамет.

Список на хардвер: 4 Mac Studio (M3 Ultra, верзија со 512GB меморија), вкупна видеопамет околу 2TB, поврзување со Thunderbolt 5 (120Gbps пропусност), системот треба да биде macOS Tahoe 26.2 или понова верзија.

Чекор 1: Вклучување на RDMA поддршка

Извршете ги следниве чекори на секој Mac:

  • Исклучете го Mac, влезете во режим на опоравување (долгото држење на копчето за напојување, изберете "Options" > "Continue")
  • Отворете Terminal и извршете: bputil -a rdma
  • Рестартирајте го Mac
  • Верификувајте: systemprofiler SPThunderboltDataType за проверка на RDMA вклучен
Thunderbolt 5 нуди 120Gbps пропусност, совршено поддржува пренос на податоци.

Чекор 2: Инсталирање на EXO

Инсталација на macOS апликација: Преземете EXO-version.dmg од GitHub и инсталирајте ја. Отворете Dashboard и додајте IP адреси на другите Mac.

Инсталација на изворен код:

  • Инсталирајте Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Чекор 3: Физичко поврзување и топологија

Не користете Wi-Fi за мрежно поврзување! Дури и Wi-Fi 7 не е доволен. Инференцијата на моделот со 1 трилион параметри е многу чувствителна на пропусност. Користете Thunderbolt 5 кабел, поставете еден Mac како главен чвор (Master), а другите три како работни чворови (Worker). Препорачуваме ѕвездообразна топологија или линк поврзување.

Во EXO Dashboard, треба да видите 4 уреди сите онлајн, вкупниот мемориски базен да се прикаже како 2048 GB.

Чекор 4: Преземете и извршете MLX заедничка верзија Kimi-K2.5

  • Преземете го моделот:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Започнете го инференцискиот мотор:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Објаснување на командата:

    • --model: укажува на директориумот на моделот
    • --quant 4: користи 4-bit квантизација за намалување на употребата на меморија
    • --shards auto: EXO автоматски интелигентно дели моделот
    • --engine mlx: повикува 76-јадрен GPU и Neural Engine на M3 Ultra за инференција

    Краен ефект и тестирање

    Кога терминалот покажува Ready, имате сопствен AI суперкомпјутер.

    Фаза на пред-пополнување (Prefill): Вентилаторите на 4 Mac почнуваат да се забрзуваат (благодарение на енергетската ефикасност на M3 Ultra, не се подигнуваат).

    Фаза на генерирање (Generation): Токени излегуваат еден по еден.

    Брзина: Иако не може да се спореди со H100 кластерот, благодарение на RDMA поддршката на Thunderbolt 5, брзината на генерирање на токени може да достигне 17-28 токени/с. Ова е сосема интерактивно за модел со 1 трилион параметри!

    Заклучок

    Овој сет на решенија не е евтин, но докажува дека со напорите на Apple Silicon + отворената заедница, иднината на децентрализираниот AI доаѓа. Не треба да ги испраќаме податоците до облачните гиганти, користејќи ги уредите што ги имаме при рака, можеме да изградиме моќни приватни инференциски клостери.

    Published in Technology

    You Might Also Like

    📝
    Technology

    Claude Code Buddy измена упатство: Како да добиете сјаен легендарен милениче

    Claude Code Buddy измена упатство: Како да добиете сјаен легендарен милениче На 1 април 2026 година, Anthropic во верзиј...

    Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново нивоTechnology

    Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново ниво

    Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново ниво Уште од почетокот, многу ми се допаѓа осно...

    OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешниот пат во изминатата годинаTechnology

    OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешниот пат во изминатата година

    OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешн...

    2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природноHealth

    2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природно

    2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природно Нова година ...

    Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тукаHealth

    Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тука

    Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тука Март веќе помина наполовина, како напреду...

    📝
    Technology

    AI Browser 24 часов стабилно работење водич

    AI Browser 24 часов стабилно работење водич Овој туторијал објаснува како да се постави стабилна, долгорочна средина за ...