صرف 300,000 خرچ؟ 4 عدد 512GB Mac Studio پر ذاتی AI سپر کمپیوٹر بنانا، ایک ٹریلین پیرا میٹر Kimi-K2.5 کی مقامی تعیناتی کی رہنمائی
صرف 300,000 خرچ؟ 4 عدد 512GB Mac Studio پر ذاتی AI سپر کمپیوٹر بنانا، ایک ٹریلین پیرا میٹر Kimi-K2.5 کی مقامی تعیناتی کی رہنمائی
اس بڑے ماڈل کے جنون کے دور میں، ہم سب کا ایک خواب ہے: مقامی طور پر ایک ایسا ماڈل چلانا جو GPT-5 کی سطح کے ایک ٹریلین پیرا میٹر ماڈل کے برابر ہو۔ لیکن حقیقت سخت ہے، ایک ٹریلین پیرا میٹر کا ماڈل چاہے 4-bit مقدار میں ہو، اسے بہت زیادہ ویڈیو میموری کی ضرورت ہوتی ہے۔ H100، B200 بہت مہنگے ہیں، اگر خرید نہیں سکتے تو کیا کریں؟
آج JamePeng آپ کو 4 عدد مکمل M3 Ultra Mac Studio کے ساتھ EXO+MLX اور Thunderbolt 5 کے ذریعے ایک مقامی AI سپر کمپیوٹر بنانے کا طریقہ دکھائے گا جس میں 2TB کا متحدہ میموری ہوگا! مقصد صرف ایک ہے: مقامی طور پر Kimi-K2.5 ایک ٹریلین پیرا میٹر بڑے ماڈل کو چلانا۔
کیوں اتنی محنت؟
یہ صرف ٹھنڈا ہونے کے لیے نہیں ہے، بلکہ ڈیٹا کی رازداری اور انتہائی مقامی کنٹرول کے لیے بھی ہے۔
اہم ہتھیار EXO (GitHub: exo-explore/exo) ہے، یہ RDMA (ریموٹ ڈائریکٹ میموری ایکسیس) کی حمایت کرتا ہے، جو 4 عدد Mac کی متحدہ میموری کو ایک بڑے ویڈیو میموری پول میں ضم کر سکتا ہے۔
ہارڈویئر کی فہرست: 4 عدد Mac Studio (M3 Ultra، 512GB میموری ورژن)، کل ویڈیو میموری تقریباً 2TB، کنکشن کے لیے Thunderbolt 5 (120Gbps بینڈوڈتھ) کا استعمال، نظام کو macOS Tahoe 26.2 یا اس سے جدید ورژن کی ضرورت ہے۔
مرحلہ 1: RDMA کی حمایت کو فعال کریں
ہر Mac پر عمل کریں:
- Mac بند کریں، بحالی کے موڈ میں جائیں (پاور بٹن کو دبائے رکھیں، "Options" > "Continue" کا انتخاب کریں)
- Terminal کھولیں، یہ چلائیں: bputil -a rdma
- Mac کو دوبارہ شروع کریں
- تصدیق کریں: systemprofiler SPThunderboltDataType RDMA کو فعال کرنے کی جانچ کریں
مرحلہ 2: EXO انسٹال کریں
macOS ایپ انسٹالیشن: GitHub سے EXO-version.dmg ڈاؤن لوڈ کریں، انسٹال کریں اور چلائیں۔ Dashboard کھولیں اور دوسرے Mac کے IP شامل کریں۔
سورس کوڈ انسٹالیشن:
- Homebrew انسٹال کریں
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
مرحلہ 3: جسمانی کنکشن اور ٹوپولوجی
Wi-Fi کے ذریعے نیٹ ورک مت بنائیں! چاہے Wi-Fi 7 بھی ہو، یہ بھی نہیں چلے گا۔ ایک ٹریلین ماڈل کی استدلال بینڈوڈتھ کے لیے انتہائی حساس ہے۔ براہ کرم Thunderbolt 5 کیبل کا استعمال کریں، ایک Mac کو ماسٹر نوڈ (Master) کے طور پر اور باقی تین کو ورک نوڈز (Worker) کے طور پر استعمال کریں۔ ستاروی ٹوپولوجی یا زنجیری کنکشن کی سفارش کی جاتی ہے۔
EXO Dashboard میں، آپ کو 4 عدد ڈیوائسز آن لائن نظر آنی چاہئیں، کل میموری پول 2048 GB دکھائی دے گا۔
مرحلہ 4: MLX کمیونٹی ورژن Kimi-K2.5 ڈاؤن لوڈ اور چلائیں
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. استدلال انجن شروع کریں:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx کمانڈ کی وضاحت:
- --model: ماڈل ڈائریکٹری کی طرف اشارہ کرتا ہے
- --quant 4: میموری کے استعمال کو کم کرنے کے لیے 4-bit مقدار استعمال کریں
- --shards auto: EXO خودکار طور پر ماڈل کو ذہین طور پر تقسیم کرتا ہے
- --engine mlx: M3 Ultra کے 76-core GPU اور Neural Engine کو استدلال کے لیے کال کرتا ہے
حتمی اثرات اور حقیقی تجربات
جب ٹرمینل Ready دکھاتا ہے، تو آپ کے پاس ایک اپنا AI سپر کمپیوٹر ہے۔
پری فل (Prefill) مرحلہ: 4 عدد Mac کے پنکھے ہلکی رفتار سے چلنے لگتے ہیں (M3 Ultra کی توانائی کی کارکردگی کی بدولت، یہ اڑ نہیں رہے ہیں)۔
جنریشن (Generation) مرحلہ: ٹوکن ایک کے بعد ایک نکل رہے ہیں۔
رفتار: اگرچہ یہ H100 کلسٹر کے برابر نہیں ہے، لیکن Thunderbolt 5 کے RDMA کی بدولت، ٹوکن کی پیداوار کی رفتار 17-28 tokens/s تک پہنچ سکتی ہے۔ یہ ایک ٹریلین پیرا میٹر ماڈل کے لیے مکمل طور پر تعاملاتی ہے!
خلاصہ
یہ منصوبہ بالکل سستا نہیں ہے، لیکن یہ ثابت کرتا ہے کہ Apple Silicon + اوپن سورس کمیونٹی کی کوششوں کے تحت، غیر مرکزیت AI کا مستقبل آ رہا ہے۔ ہمیں اپنے ڈیٹا کو کلاؤڈ کے بڑے اداروں کو نہیں دینا پڑتا، اپنے پاس موجود آلات کا استعمال کرتے ہوئے، ہم طاقتور نجی استدلال کلسٹر بنا سکتے ہیں۔

