Chi phí chỉ 300.000? Hướng dẫn triển khai AI siêu máy tính cá nhân với Kimi-K2.5 triệu tham số trên 4 máy Mac Studio 512GB
Chi phí chỉ 300.000? Hướng dẫn triển khai AI siêu máy tính cá nhân với Kimi-K2.5 triệu tham số trên 4 máy Mac Studio 512GB
Trong thời đại bùng nổ mô hình lớn này, chúng ta đều có một giấc mơ: chạy một mô hình triệu tham số tương đương với cấp độ GPT-5 tại địa phương. Nhưng thực tế thì khắc nghiệt, mô hình triệu tham số ngay cả khi được lượng tử hóa 4-bit cũng cần một lượng lớn bộ nhớ đồ họa. H100, B200 quá đắt, không mua được thì phải làm sao?
Hôm nay, JamePeng sẽ dẫn dắt mọi người sử dụng 4 chiếc M3 Ultra Mac Studio đầy đủ cấu hình, thông qua EXO+MLX và Thunderbolt 5, tạo ra một siêu máy tính AI tại địa phương với 2TB bộ nhớ thống nhất! Mục tiêu chỉ có một: chạy mô hình lớn Kimi-K2.5 triệu tham số tại địa phương.
Tại sao phải làm như vậy?
Không chỉ vì sự ngầu, mà còn vì quyền riêng tư dữ liệu và quyền kiểm soát tối đa tại địa phương.
Vũ khí chính là EXO (GitHub: exo-explore/exo), nó hỗ trợ RDMA (truy cập bộ nhớ trực tiếp từ xa), có thể kết hợp bộ nhớ thống nhất của 4 chiếc Mac thành một bể bộ nhớ đồ họa khổng lồ.
Danh sách phần cứng: 4 chiếc Mac Studio (M3 Ultra, phiên bản 512GB bộ nhớ), tổng bộ nhớ đồ họa khoảng 2TB, kết nối sử dụng Thunderbolt 5 (băng thông 120Gbps), hệ thống cần macOS Tahoe 26.2 hoặc phiên bản mới hơn.
Bước 1: Bật hỗ trợ RDMA
Thực hiện trên mỗi chiếc Mac:
- Tắt Mac, vào chế độ phục hồi (nhấn giữ nút nguồn, chọn "Options" > "Continue")
- Mở Terminal, chạy: bputil -a rdma
- Khởi động lại Mac
- Xác minh: systemprofiler SPThunderboltDataType kiểm tra RDMA đã được bật
Bước 2: Cài đặt EXO
Cài đặt ứng dụng macOS: Tải EXO-version.dmg từ GitHub, cài đặt và chạy. Mở Dashboard thêm IP của các Mac khác.
Cài đặt mã nguồn:
- Cài đặt Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Bước 3: Kết nối vật lý và cấu trúc
Đừng sử dụng Wi-Fi để kết nối! Ngay cả Wi-Fi 7 cũng không được. Việc suy diễn mô hình triệu tham số cực kỳ nhạy cảm với băng thông. Hãy sử dụng cáp Thunderbolt 5, chọn một chiếc Mac làm nút chính (Master), ba chiếc còn lại làm nút làm việc (Worker). Khuyến nghị cấu trúc sao hoặc kết nối chuỗi.
Trong EXO Dashboard, bạn nên thấy 4 thiết bị đều trực tuyến, tổng bể bộ nhớ hiển thị là 2048 GB.
Bước 4: Tải xuống và chạy phiên bản cộng đồng MLX Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Khởi động động cơ suy diễn:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlxPhân tích lệnh:
- --model: chỉ đến thư mục mô hình
- --quant 4: sử dụng lượng tử hóa 4-bit để giảm sử dụng bộ nhớ
- --shards auto: EXO tự động thông minh chia nhỏ mô hình
- --engine mlx: gọi GPU 76 lõi và Neural Engine của M3 Ultra để thực hiện suy diễn
Hiệu quả cuối cùng và thử nghiệm thực tế
Khi terminal hiển thị Ready, bạn đã sở hữu một siêu máy tính AI thuộc về mình.
Giai đoạn tiền lấp đầy (Prefill): Quạt của 4 chiếc Mac bắt đầu tăng tốc nhẹ (nhờ vào hiệu suất năng lượng của M3 Ultra, sẽ không bay lên).
Giai đoạn tạo (Generation): Token lần lượt xuất hiện.
Tốc độ: Mặc dù không thể so sánh với cụm H100, nhưng nhờ vào RDMA của Thunderbolt 5, tốc độ tạo Token có thể đạt 17-28 tokens/s. Điều này hoàn toàn có thể tương tác đối với một mô hình triệu tham số!
Tóm tắt
Giải pháp này chắc chắn không rẻ, nhưng nó chứng minh rằng dưới nỗ lực của Apple Silicon + cộng đồng mã nguồn mở, tương lai của AI phi tập trung đang đến gần. Chúng ta không cần phải gửi dữ liệu cho các ông lớn đám mây, chỉ cần sử dụng các thiết bị có sẵn, chúng ta có thể xây dựng một cụm suy diễn riêng mạnh mẽ.

