30 мың юаньға шығын? 4 дана 512GB Mac Studio-да жеке AI суперкомпьютерін құру, триллион параметрлі Kimi-K2.5 жергілікті орналастыру нұсқаулығы
30 мың юаньға шығын? 4 дана 512GB Mac Studio-да жеке AI суперкомпьютерін құру, триллион параметрлі Kimi-K2.5 жергілікті орналастыру нұсқаулығы
Бұл үлкен модельдер дәуірінде, бәрімізде бір арман бар: жергілікті деңгейде GPT-5 деңгейіндегі триллион параметрлі модельді іске қосу. Бірақ шындық қатал, триллион параметрлі модельдер 4-bit кванттау болса да, үлкен көлемдегі видеопамятьті қажет етеді. H100, B200 өте қымбат, сатып алуға мүмкіндігіміз жоқ, не істейміз?
Бүгін JamePeng бізді 4 дана толық конфигурацияланған M3 Ultra Mac Studio-мен EXO+MLX және Thunderbolt 5 арқылы 2TB біртұтас жадқа ие жергілікті AI суперкомпьютерін құруға шақырады! Мақсат тек біреу: жергілікті деңгейде Kimi-K2.5 триллион параметрлі үлкен моделін іске қосу.
Неге осылай қиындатып жатырмыз?
Бұл тек қызық үшін емес, сонымен қатар деректердің құпиялылығы мен максималды жергілікті бақылау құқығы үшін.
Негізгі қару - EXO (GitHub: exo-explore/exo), ол RDMA (қашықтан тікелей жадқа қол жеткізу) қолдайды, 4 Mac-тың біртұтас жадын үлкен видеопамять бассейніне біріктіруге мүмкіндік береді.
Аппараттық тізім: 4 дана Mac Studio (M3 Ultra, 512GB жад нұсқасы), жалпы видеопамять шамамен 2TB, Thunderbolt 5 (120Gbps өткізу қабілеті) арқылы қосылады, жүйе macOS Tahoe 26.2 немесе жаңартылған нұсқасын қажет етеді.
1-қадам: RDMA қолдауын қосу
Әр Mac-те әрекет ету:
- Mac-ты өшіріп, қалпына келтіру режиміне кіріңіз (қуат түймесін басып, "Options" > "Continue" таңдаңыз)
- Terminal-ды ашып, мына команданы орындаңыз: bputil -a rdma
- Mac-ты қайта жүктеңіз
- Тексеру: systemprofiler SPThunderboltDataType RDMA-ның қосылғанын тексеру
2-қадам: EXO-ны орнату
macOS App орнату: GitHub-тан EXO-version.dmg жүктеп алып, орнатыңыз. Dashboard-ты ашып, басқа Mac IP-лерін қосыңыз.
Көз кодын орнату:
- Homebrew-ды орнатыңыз
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
3-қадам: Физикалық байланыс және топология
Wi-Fi арқылы желі құрудан аулақ болыңыз! Wi-Fi 7 болса да, болмайды. Триллион модельдің индукциясы өткізу қабілетіне өте сезімтал. Thunderbolt 5 кабелін пайдаланып, бір Mac-ты негізгі түйін (Master) ретінде, қалған үш Mac-ты жұмыс түйіндері (Worker) ретінде пайдаланыңыз. Жұлдызша топологиясын немесе тізбекті байланыс ұсынылады.
EXO Dashboard-да 4 құрылғының барлығы онлайн болуы керек, жалпы жад бассейні 2048 GB деп көрсетілуі тиіс.
4-қадам: MLX қауымдастық нұсқасы Kimi-K2.5-ті жүктеп алу және іске қосу
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Команданың түсіндірмесі:
- --model: модель каталогына сілтеме
- --quant 4: жадты пайдалануын азайту үшін 4-bit кванттау
- --shards auto: EXO автоматты түрде модельді ақылды түрде бөледі
- --engine mlx: M3 Ultra-ның 76 ядролы GPU және Neural Engine-ді индукция үшін пайдалану
Соңғы нәтиже мен нақты өлшеу
Терминал "Ready" деп көрсеткенде, сізде өзіңіздің AI суперкомпьютеріңіз бар.
Алдын ала толтыру (Prefill) кезеңі: 4 Mac-тың желдеткіштері аздап жылдамдай бастайды (M3 Ultra-ның энергия тиімділігі арқасында, ұшып кетпейді).
Генерация (Generation) кезеңі: Токендер бірінен соң бірі пайда болады.
Жылдамдық: H100 кластерімен салыстырғанда, Thunderbolt 5-тің RDMA қолдауы арқасында токендерді генерациялау жылдамдығы 17-28 токен/с-қа жетуі мүмкін. Бұл триллион параметрлі модель үшін толық интерактивті!
Қорытынды
Бұл шешім мүлдем арзан емес, бірақ Apple Silicon + ашық кодты қауымдастықтың күш-жігерінің арқасында орталықсыздандырылған AI-дың болашағы келе жатқанын дәлелдейді. Біз деректерімізді бұлттық алыптарға берудің қажеті жоқ, қолымыздағы құрылғыларды пайдаланып, қуатты жеке индукция кластерін құра аламыз.

