비용이 단 30만 원? 4대의 512GB Mac Studio로 개인 AI 슈퍼컴퓨터 구축하기, 만억 매개변수 Kimi-K2.5 로컬 배포 가이드

이 대형 모델의 광풍 시대에 우리는 모두 하나의 꿈을 가지고 있습니다: 로컬에서 GPT-5 수준의 만억 매개변수 모델을 실행하는 것입니다. 하지만 현실은 잔인합니다. 만억 매개변수 모델은 4-bit 양자화가 되더라도 방대한 비디오 메모리가 필요합니다. H100, B200은 너무 비쌉니다. 어떻게 해야 할까요?

오늘 JamePeng은 4대의 풀 사양 M3 Ultra Mac Studio를 사용하여 EXO+MLX와 Thunderbolt 5를 통해 2TB의 통합 메모리를 가진 로컬 AI 슈퍼컴퓨터를 만들어 보겠습니다! 목표는 오직 하나입니다: 로컬에서 Kimi-K2.5 만억 매개변수 대형 모델을 실행하는 것입니다.

왜 이렇게 번거롭게 해야 할까요?

단순히 멋지기 때문만이 아니라, 데이터 프라이버시와 극도의 로컬 제어 권한을 위해서입니다.

핵심 무기는 EXO(GitHub: exo-explore/exo)입니다. 이 도구는 RDMA(원격 직접 메모리 접근)를 지원하여 4대의 Mac의 통합 메모리를 하나의 거대한 비디오 메모리 풀로 융합할 수 있습니다.

하드웨어 목록: 4대의 Mac Studio (M3 Ultra, 512GB 메모리 버전), 총 비디오 메모리 약 2TB, Thunderbolt 5(120Gbps 대역폭)를 통해 연결, 시스템은 macOS Tahoe 26.2 또는 최신 버전이 필요합니다.

단계 1: RDMA 지원 활성화

각 Mac에서 다음 작업을 수행합니다:

Mac을 끄고 복구 모드로 들어갑니다(전원 버튼을 누르고 "옵션" > "계속" 선택)
터미널을 열고 다음을 실행합니다: bputil -a rdma
Mac을 재부팅합니다.
확인: systemprofiler SPThunderboltDataType로 RDMA 활성화 여부를 확인합니다.

Thunderbolt 5는 120Gbps 대역폭을 제공하여 데이터 전송을 완벽하게 지원합니다.

단계 2: EXO 설치

macOS 앱 설치: GitHub에서 EXO-version.dmg를 다운로드하여 설치하고 실행합니다. 대시보드를 열어 다른 Mac의 IP를 추가합니다.

소스 코드 설치:

Homebrew 설치

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

단계 3: 물리적 연결 및 토폴로지

Wi-Fi로 네트워크를 구성하지 마세요! Wi-Fi 7조차도 안 됩니다. 만억 모델의 추론은 대역폭에 매우 민감합니다. Thunderbolt 5 케이블을 사용하여 한 대의 Mac을 마스터 노드로 설정하고 나머지 세 대를 워커 노드로 설정합니다. 별형 토폴로지 또는 체인형 연결을 추천합니다.

EXO 대시보드에서 4대의 장치가 모두 온라인 상태이며 총 메모리 풀이 2048 GB로 표시되어야 합니다.

단계 4: MLX 커뮤니티 버전 Kimi-K2.5 다운로드 및 실행

모델 다운로드:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. 추론 엔진 시작:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx명령어 해석:

--model: 모델 디렉토리를 가리킴
--quant 4: 4-bit 양자를 사용하여 메모리 사용량을 줄임
--shards auto: EXO가 모델을 자동으로 지능적으로 분할
--engine mlx: M3 Ultra의 76코어 GPU와 Neural Engine을 호출하여 추론 수행

최종 효과 및 실측

터미널에 Ready가 표시되면, 당신은 자신만의 AI 슈퍼컴퓨터를 소유하게 됩니다.

프리필 단계: 4대의 Mac의 팬이 약간 가속하기 시작합니다(이는 M3 Ultra의 에너지 효율 덕분에 비행하지는 않습니다).

생성 단계: 토큰이 하나씩 튀어나옵니다.

속도: H100 클러스터에는 미치지 못하지만, Thunderbolt 5의 RDMA 지원 덕분에 토큰 생성 속도가 17-28 tokens/s에 이를 수 있습니다. 이는 만억 매개변수 모델에 대해 완전히 상호작용이 가능합니다!

요약

이 솔루션은 절대 저렴하지 않지만, Apple Silicon + 오픈 소스 커뮤니티의 노력 덕분에 탈중앙화 AI의 미래가 다가오고 있음을 증명합니다. 우리는 데이터를 클라우드 거대 기업에 전달할 필요가 없으며, 손에 있는 장비를 활용하여 강력한 개인 추론 클러스터를 구축할 수 있습니다.