صرف 300,000 خرچ؟ 4 عدد 512GB Mac Studio پر ذاتی AI سپر کمپیوٹر بنانا، ایک ٹریلین پیرا میٹر Kimi-K2.5 کی مقامی تعیناتی کی رہنمائی
صرف 300,000 خرچ؟ 4 عدد 512GB Mac Studio پر ذاتی AI سپر کمپیوٹر بنانا، ایک ٹریلین پیرا میٹر Kimi-K2.5 کی مقامی تعیناتی کی رہنمائی
اس بڑے ماڈل کے جنون کے دور میں، ہم سب کا ایک خواب ہے: مقامی طور پر ایک ایسا ماڈل چلانا جو GPT-5 کی سطح کے ایک ٹریلین پیرا میٹر کے برابر ہو۔ لیکن حقیقت سخت ہے، ایک ٹریلین پیرا میٹر کا ماڈل چاہے 4-bit کوانٹائزڈ ہو، اسے بڑی مقدار میں ویڈیو میموری کی ضرورت ہوتی ہے۔ H100، B200 بہت مہنگے ہیں، اگر خرید نہیں سکتے تو کیا کریں؟
آج JamePeng آپ کو 4 عدد مکمل M3 Ultra Mac Studio کے ذریعے EXO+MLX اور Thunderbolt 5 کا استعمال کرتے ہوئے ایک مقامی AI سپر کمپیوٹر بنانے کا طریقہ دکھائے گا جس میں 2TB کی متحدہ میموری ہوگی! مقصد صرف ایک ہے: مقامی طور پر Kimi-K2.5 ایک ٹریلین پیرا میٹر کے بڑے ماڈل کو چلانا۔
کیوں اتنی محنت کرنی ہے؟
یہ صرف ٹھنڈا ہونے کے لیے نہیں ہے، بلکہ ڈیٹا کی رازداری اور انتہائی مقامی کنٹرول کے حق کے لیے بھی ہے۔
اہم ہتھیار EXO ہے (GitHub: exo-explore/exo)، یہ RDMA (ریموٹ ڈائریکٹ میموری ایکسیس) کی حمایت کرتا ہے، جو 4 عدد Mac کی متحدہ میموری کو ایک بڑے ویڈیو میموری پول میں ضم کر سکتا ہے۔
ہارڈ ویئر کی فہرست: 4 عدد Mac Studio (M3 Ultra، 512GB میموری ورژن)، کل ویڈیو میموری تقریباً 2TB، کنکشن کے لیے Thunderbolt 5 (120Gbps بینڈوڈتھ) کا استعمال کریں، نظام کو macOS Tahoe 26.2 یا اس سے اوپر کی ورژن کی ضرورت ہے۔
مرحلہ 1: RDMA کی حمایت کو فعال کریں
ہر Mac پر عمل کریں:
- Mac بند کریں، بحالی کے موڈ میں جائیں (پاور بٹن کو دبائے رکھیں، "Options" > "Continue" کا انتخاب کریں)
- Terminal کھولیں، یہ چلائیں: bputil -a rdma
- Mac کو دوبارہ شروع کریں
- تصدیق کریں: systemprofiler SPThunderboltDataType RDMA کی فعالیت کی جانچ کریں
مرحلہ 2: EXO انسٹال کریں
macOS ایپ انسٹالیشن: GitHub سے EXO-version.dmg ڈاؤن لوڈ کریں، انسٹال کریں اور چلائیں۔ Dashboard کھولیں اور دوسرے Mac کے IP شامل کریں۔
سورس کوڈ انسٹالیشن:
- Homebrew انسٹال کریں
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
مرحلہ 3: جسمانی کنکشن اور ٹوپولوجی
Wi-Fi کا استعمال کرکے نیٹ ورک نہ بنائیں! چاہے Wi-Fi 7 بھی ہو، یہ بھی نہیں چلتا۔ ایک ٹریلین ماڈل کی استدلال بینڈوڈتھ کے لیے انتہائی حساس ہے۔ براہ کرم Thunderbolt 5 کیبل کا استعمال کریں، ایک Mac کو ماسٹر نوڈ (Master) کے طور پر اور باقی تین کو ورک نوڈز (Worker) کے طور پر استعمال کریں۔ ستارے کی شکل کی ٹوپولوجی یا زنجیری کنکشن کی سفارش کی جاتی ہے۔
EXO Dashboard میں، آپ کو 4 عدد ڈیوائسز آن لائن نظر آنی چاہئیں، کل میموری پول 2048 GB دکھائی دے گا۔
مرحلہ 4: MLX کمیونٹی ورژن Kimi-K2.5 ڈاؤن لوڈ اور چلائیں
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. استدلال انجن شروع کریں:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx کمانڈ کی وضاحت:
- --model: ماڈل ڈائریکٹری کی طرف اشارہ کرتا ہے
- --quant 4: میموری کے استعمال کو کم کرنے کے لیے 4-bit کوانٹائزیشن کا استعمال کریں
- --shards auto: EXO خودکار طور پر ماڈل کو ذہین طور پر تقسیم کرتا ہے
- --engine mlx: M3 Ultra کے 76-core GPU اور Neural Engine کو استدلال کے لیے کال کرتا ہے
آخری اثرات اور حقیقی تجربات
جب ٹرمینل Ready دکھاتا ہے، تو آپ کے پاس ایک اپنا AI سپر کمپیوٹر ہے۔
پری فل (Prefill) مرحلہ: 4 عدد Mac کے پنکھے ہلکی رفتار سے بڑھنے لگتے ہیں (M3 Ultra کی توانائی کی کارکردگی کی بدولت، یہ اڑ نہیں رہے ہیں)۔
جنریشن (Generation) مرحلہ: ٹوکن ایک کے بعد ایک نکلتے ہیں۔
رفتار: اگرچہ یہ H100 کلسٹر کے برابر نہیں ہے، لیکن Thunderbolt 5 کے RDMA کی بدولت، ٹوکن کی پیداوار کی رفتار 17-28 tokens/s تک پہنچ سکتی ہے۔ یہ ایک ٹریلین پیرا میٹر ماڈل کے لیے مکمل طور پر تعاملاتی ہے!
خلاصہ
یہ حل بالکل سستا نہیں ہے، لیکن یہ ثابت کرتا ہے کہ Apple Silicon + اوپن سورس کمیونٹی کی کوششوں کے تحت، غیر مرکزی AI کا مستقبل آ رہا ہے۔ ہمیں اپنے ڈیٹا کو کلاؤڈ کے بڑے کھلاڑیوں کو منتقل کرنے کی ضرورت نہیں ہے، اپنے پاس موجود آلات کا استعمال کرتے ہوئے، ہم طاقتور نجی استدلال کلسٹر بنا سکتے ہیں۔

