Chi phí chỉ 300.000? Hướng dẫn triển khai AI siêu máy tính cá nhân với Kimi-K2.5 triệu tham số trên 4 máy Mac Studio 512GB

2/26/2026
4 min read

Chi phí chỉ 300.000? Hướng dẫn triển khai AI siêu máy tính cá nhân với Kimi-K2.5 triệu tham số trên 4 máy Mac Studio 512GB

Trong thời đại bùng nổ mô hình lớn này, chúng ta đều có một giấc mơ: chạy một mô hình triệu tham số tương đương với cấp độ GPT-5 tại địa phương. Nhưng thực tế thì khắc nghiệt, mô hình triệu tham số ngay cả khi được lượng tử hóa 4-bit cũng cần một lượng lớn bộ nhớ đồ họa. H100, B200 quá đắt, không mua được thì phải làm sao?

Hôm nay, JamePeng sẽ dẫn dắt mọi người sử dụng 4 chiếc M3 Ultra Mac Studio đầy đủ cấu hình, thông qua EXO+MLX và Thunderbolt 5, tạo ra một siêu máy tính AI tại địa phương với 2TB bộ nhớ thống nhất! Mục tiêu chỉ có một: chạy mô hình lớn Kimi-K2.5 triệu tham số tại địa phương.

Tại sao phải làm như vậy?

Không chỉ vì sự ngầu, mà còn vì quyền riêng tư dữ liệu và quyền kiểm soát tối đa tại địa phương.

Vũ khí chính là EXO (GitHub: exo-explore/exo), nó hỗ trợ RDMA (truy cập bộ nhớ trực tiếp từ xa), có thể kết hợp bộ nhớ thống nhất của 4 chiếc Mac thành một bể bộ nhớ đồ họa khổng lồ.

Danh sách phần cứng: 4 chiếc Mac Studio (M3 Ultra, phiên bản 512GB bộ nhớ), tổng bộ nhớ đồ họa khoảng 2TB, kết nối sử dụng Thunderbolt 5 (băng thông 120Gbps), hệ thống cần macOS Tahoe 26.2 hoặc phiên bản mới hơn.

Bước 1: Bật hỗ trợ RDMA

Thực hiện trên mỗi chiếc Mac:

  • Tắt Mac, vào chế độ phục hồi (nhấn giữ nút nguồn, chọn "Options" > "Continue")
  • Mở Terminal, chạy: bputil -a rdma
  • Khởi động lại Mac
  • Xác minh: systemprofiler SPThunderboltDataType kiểm tra RDMA đã được bật
Thunderbolt 5 cung cấp băng thông 120Gbps, hoàn toàn hỗ trợ việc truyền dữ liệu.

Bước 2: Cài đặt EXO

Cài đặt ứng dụng macOS: Tải EXO-version.dmg từ GitHub, cài đặt và chạy. Mở Dashboard thêm IP của các Mac khác.

Cài đặt mã nguồn:

  • Cài đặt Homebrew
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

Bước 3: Kết nối vật lý và cấu trúc

Đừng sử dụng Wi-Fi để kết nối! Ngay cả Wi-Fi 7 cũng không được. Việc suy diễn mô hình triệu tham số cực kỳ nhạy cảm với băng thông. Hãy sử dụng cáp Thunderbolt 5, chọn một chiếc Mac làm nút chính (Master), ba chiếc còn lại làm nút làm việc (Worker). Khuyến nghị cấu trúc sao hoặc kết nối chuỗi.

Trong EXO Dashboard, bạn nên thấy 4 thiết bị đều trực tuyến, tổng bể bộ nhớ hiển thị là 2048 GB.

Bước 4: Tải xuống và chạy phiên bản cộng đồng MLX Kimi-K2.5

  • Tải mô hình:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Khởi động động cơ suy diễn:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlxPhân tích lệnh:

    • --model: chỉ đến thư mục mô hình
    • --quant 4: sử dụng lượng tử hóa 4-bit để giảm sử dụng bộ nhớ
    • --shards auto: EXO tự động thông minh chia nhỏ mô hình
    • --engine mlx: gọi GPU 76 lõi và Neural Engine của M3 Ultra để thực hiện suy diễn

    Hiệu quả cuối cùng và thử nghiệm thực tế

    Khi terminal hiển thị Ready, bạn đã sở hữu một siêu máy tính AI thuộc về mình.

    Giai đoạn tiền lấp đầy (Prefill): Quạt của 4 chiếc Mac bắt đầu tăng tốc nhẹ (nhờ vào hiệu suất năng lượng của M3 Ultra, sẽ không bay lên).

    Giai đoạn tạo (Generation): Token lần lượt xuất hiện.

    Tốc độ: Mặc dù không thể so sánh với cụm H100, nhưng nhờ vào RDMA của Thunderbolt 5, tốc độ tạo Token có thể đạt 17-28 tokens/s. Điều này hoàn toàn có thể tương tác đối với một mô hình triệu tham số!

    Tóm tắt

    Giải pháp này chắc chắn không rẻ, nhưng nó chứng minh rằng dưới nỗ lực của Apple Silicon + cộng đồng mã nguồn mở, tương lai của AI phi tập trung đang đến gần. Chúng ta không cần phải gửi dữ liệu cho các ông lớn đám mây, chỉ cần sử dụng các thiết bị có sẵn, chúng ta có thể xây dựng một cụm suy diễn riêng mạnh mẽ.

    Published in Technology

    You Might Also Like

    📝
    Technology

    Hướng dẫn chỉnh sửa Claude Code Buddy: Cách nhận thú cưng huyền thoại phát sáng

    Hướng dẫn chỉnh sửa Claude Code Buddy: Cách nhận thú cưng huyền thoại phát sáng Ngày 1 tháng 4 năm 2026, Anthropic đã âm...

    Obsidian đã ra mắt Defuddle, đưa Obsidian Web Clipper lên một tầm cao mớiTechnology

    Obsidian đã ra mắt Defuddle, đưa Obsidian Web Clipper lên một tầm cao mới

    Obsidian đã ra mắt Defuddle, đưa Obsidian Web Clipper lên một tầm cao mới Tôi luôn rất thích triết lý cốt lõi của Obsid...

    OpenAI đột ngột công bố "ba trong một": Trình duyệt + lập trình + ChatGPT hợp nhất, nội bộ thừa nhận đã đi sai đường trong năm quaTechnology

    OpenAI đột ngột công bố "ba trong một": Trình duyệt + lập trình + ChatGPT hợp nhất, nội bộ thừa nhận đã đi sai đường trong năm qua

    OpenAI đột ngột công bố "ba trong một": Trình duyệt + lập trình + ChatGPT hợp nhất, nội bộ thừa nhận đã đi sai đường tro...

    2026, không còn ép bản thân 'kỷ luật'! Làm tốt 8 việc nhỏ này, sức khỏe tự nhiên đếnHealth

    2026, không còn ép bản thân 'kỷ luật'! Làm tốt 8 việc nhỏ này, sức khỏe tự nhiên đến

    2026, không còn ép bản thân 'kỷ luật'! Làm tốt 8 việc nhỏ này, sức khỏe tự nhiên đến Năm mới bắt đầu, năm ngoái bạn đã ...

    Những bà mẹ cố gắng giảm cân nhưng không thành công, chắc chắn đều mắc phải điều nàyHealth

    Những bà mẹ cố gắng giảm cân nhưng không thành công, chắc chắn đều mắc phải điều này

    Những bà mẹ cố gắng giảm cân nhưng không thành công, chắc chắn đều mắc phải điều này Tháng Ba đã qua nửa, kế hoạch giảm...

    📝
    Technology

    Hướng dẫn vận hành ổn định AI Browser 24 giờ

    Hướng dẫn vận hành ổn định AI Browser 24 giờ Bài hướng dẫn này giới thiệu cách thiết lập một môi trường AI Browser ổn đị...