ใช้เงินเพียง 300,000 บาท? สร้างซูเปอร์คอมพิวเตอร์ AI ส่วนตัวด้วย Mac Studio 512GB 4 เครื่อง คู่มือการติดตั้ง Kimi-K2.5 ที่มีพารามิเตอร์ 1 ล้านล้านในเครื่อง
ใช้เงินเพียง 300,000 บาท? สร้างซูเปอร์คอมพิวเตอร์ AI ส่วนตัวด้วย Mac Studio 512GB 4 เครื่อง คู่มือการติดตั้ง Kimi-K2.5 ที่มีพารามิเตอร์ 1 ล้านล้านในเครื่อง
ในยุคที่โมเดลขนาดใหญ่กำลังเฟื่องฟู เราทุกคนมีความฝัน: การรันโมเดลที่มีพารามิเตอร์ 1 ล้านล้านที่เทียบเท่าระดับ GPT-5 ในเครื่อง แต่ความจริงนั้นโหดร้าย โมเดลที่มีพารามิเตอร์ 1 ล้านล้านแม้จะมีการควอนตัม 4-bit ก็ยังต้องการหน่วยความจำกราฟิกจำนวนมาก H100, B200 แพงเกินไป จะทำอย่างไรดี?
วันนี้ JamePeng จะพาทุกคนใช้ Mac Studio M3 Ultra ที่มีสเปคเต็ม 4 เครื่อง ผ่าน EXO+MLX และ Thunderbolt 5 สร้างซูเปอร์คอมพิวเตอร์ AI ในเครื่องที่มีหน่วยความจำรวม 2TB! เป้าหมายมีเพียงหนึ่งเดียว: รันโมเดลขนาดใหญ่ Kimi-K2.5 ที่มีพารามิเตอร์ 1 ล้านล้านในเครื่อง
ทำไมต้องทำแบบนี้?
ไม่ใช่แค่เพื่อความเท่ แต่ยังเพื่อความเป็นส่วนตัวของข้อมูลและการควบคุมในเครื่องอย่างสุดขีด
อาวุธหลักคือ EXO (GitHub: exo-explore/exo) ซึ่งรองรับ RDMA (Remote Direct Memory Access) สามารถรวมหน่วยความจำของ Mac 4 เครื่องให้เป็นพูลหน่วยความจำกราฟิกขนาดใหญ่
รายการฮาร์ดแวร์: Mac Studio 4 เครื่อง (M3 Ultra, รุ่น 512GB) หน่วยความจำกราฟิกทั้งหมดประมาณ 2TB เชื่อมต่อด้วย Thunderbolt 5 (แบนด์วิธ 120Gbps) ระบบต้องการ macOS Tahoe 26.2 หรือเวอร์ชันที่ใหม่กว่า
ขั้นตอนที่ 1: เปิดใช้งานการสนับสนุน RDMA
ทำการที่ Mac แต่ละเครื่อง:
- ปิด Mac และเข้าสู่โหมดการกู้คืน (กดปุ่มเปิดเครื่อง คัดเลือก "Options" > "Continue")
- เปิด Terminal และรัน: bputil -a rdma
- รีสตาร์ท Mac
- ตรวจสอบ: systemprofiler SPThunderboltDataType เพื่อตรวจสอบการเปิดใช้งาน RDMA
ขั้นตอนที่ 2: ติดตั้ง EXO
การติดตั้งแอป macOS: ดาวน์โหลด EXO-version.dmg จาก GitHub และติดตั้งรัน เปิด Dashboard เพิ่ม IP ของ Mac อื่น
การติดตั้งจากซอร์สโค้ด:
- ติดตั้ง Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
ขั้นตอนที่ 3: การเชื่อมต่อทางกายภาพและโทโพโลยี
อย่าใช้ Wi-Fi ในการเชื่อมต่อ! แม้แต่ Wi-Fi 7 ก็ไม่เพียงพอ การอนุมานโมเดล 1 ล้านล้านนั้นไวต่อแบนด์วิธมาก กรุณาใช้สาย Thunderbolt 5 เชื่อมต่อ Mac หนึ่งเครื่องเป็นโหนดหลัก (Master) และอีกสามเครื่องเป็นโหนดทำงาน (Worker) แนะนำให้ใช้โทโพโลยีแบบดาวหรือการเชื่อมต่อแบบสายโซ่
ใน EXO Dashboard คุณควรเห็นอุปกรณ์ 4 เครื่องทั้งหมดออนไลน์ และพูลหน่วยความจำทั้งหมดแสดงเป็น 2048 GB
ขั้นตอนที่ 4: ดาวน์โหลดและรัน MLX รุ่นชุมชน Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. เริ่มต้นเครื่องยนต์การอนุมาน:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx การวิเคราะห์คำสั่ง:
- --model: ชี้ไปที่ไดเรกทอรีของโมเดล
- --quant 4: ใช้การควอนตัม 4-bit เพื่อลดการใช้หน่วยความจำ
- --shards auto: EXO จะแบ่งโมเดลอัตโนมัติอย่างชาญฉลาด
- --engine mlx: เรียกใช้ GPU 76-core และ Neural Engine ของ M3 Ultra สำหรับการอนุมาน
ผลลัพธ์สุดท้ายและการทดสอบจริง
เมื่อเทอร์มินัลแสดง Ready คุณก็มีซูเปอร์คอมพิวเตอร์ AI เป็นของตัวเอง
ขั้นตอนการเติมข้อมูล (Prefill): พัดลมของ Mac 4 เครื่องเริ่มเร่งความเร็วเล็กน้อย (ขอบคุณประสิทธิภาพพลังงานของ M3 Ultra จะไม่ทำให้เกิดเสียงดัง)
ขั้นตอนการสร้าง (Generation): Token จะถูกสร้างขึ้นทีละตัว
ความเร็ว: แม้จะไม่สามารถเทียบกับคลัสเตอร์ H100 ได้ แต่ด้วยการสนับสนุน RDMA ของ Thunderbolt 5 ความเร็วในการสร้าง Token สามารถทำได้ถึง 17-28 tokens/s ซึ่งถือว่าเป็นการโต้ตอบได้สำหรับโมเดลที่มีพารามิเตอร์ 1 ล้านล้าน!
สรุป
แผนการนี้ไม่ถูกเลย แต่พิสูจน์ได้ว่า ด้วยความพยายามของ Apple Silicon + ชุมชนโอเพนซอร์ส อนาคตของ AI แบบกระจายศูนย์กำลังจะมาถึง เราไม่จำเป็นต้องส่งข้อมูลไปยังยักษ์ใหญ่ในคลาวด์ โดยใช้เครื่องมือที่มีอยู่ เราสามารถสร้างคลัสเตอร์การอนุมานส่วนตัวที่ทรงพลังได้.

