صرف 300,000 خرچ؟ 4 عدد 512GB Mac Studio پر ذاتی AI سپر کمپیوٹر بنانا، ایک ٹریلین پیرا میٹر Kimi-K2.5 کی مقامی تعیناتی کی رہنمائی

2/26/2026
4 min read

صرف 300,000 خرچ؟ 4 عدد 512GB Mac Studio پر ذاتی AI سپر کمپیوٹر بنانا، ایک ٹریلین پیرا میٹر Kimi-K2.5 کی مقامی تعیناتی کی رہنمائی

اس بڑے ماڈل کے جنون کے دور میں، ہم سب کا ایک خواب ہے: مقامی طور پر ایک ایسا ماڈل چلانا جو GPT-5 کی سطح کے ایک ٹریلین پیرا میٹر کے برابر ہو۔ لیکن حقیقت سخت ہے، ایک ٹریلین پیرا میٹر کا ماڈل چاہے 4-bit کوانٹائزڈ ہو، اسے بڑی مقدار میں ویڈیو میموری کی ضرورت ہوتی ہے۔ H100، B200 بہت مہنگے ہیں، اگر خرید نہیں سکتے تو کیا کریں؟

آج JamePeng آپ کو 4 عدد مکمل M3 Ultra Mac Studio کے ذریعے EXO+MLX اور Thunderbolt 5 کا استعمال کرتے ہوئے ایک مقامی AI سپر کمپیوٹر بنانے کا طریقہ دکھائے گا جس میں 2TB کی متحدہ میموری ہوگی! مقصد صرف ایک ہے: مقامی طور پر Kimi-K2.5 ایک ٹریلین پیرا میٹر کے بڑے ماڈل کو چلانا۔

کیوں اتنی محنت کرنی ہے؟

یہ صرف ٹھنڈا ہونے کے لیے نہیں ہے، بلکہ ڈیٹا کی رازداری اور انتہائی مقامی کنٹرول کے حق کے لیے بھی ہے۔

اہم ہتھیار EXO ہے (GitHub: exo-explore/exo)، یہ RDMA (ریموٹ ڈائریکٹ میموری ایکسیس) کی حمایت کرتا ہے، جو 4 عدد Mac کی متحدہ میموری کو ایک بڑے ویڈیو میموری پول میں ضم کر سکتا ہے۔

ہارڈ ویئر کی فہرست: 4 عدد Mac Studio (M3 Ultra، 512GB میموری ورژن)، کل ویڈیو میموری تقریباً 2TB، کنکشن کے لیے Thunderbolt 5 (120Gbps بینڈوڈتھ) کا استعمال کریں، نظام کو macOS Tahoe 26.2 یا اس سے اوپر کی ورژن کی ضرورت ہے۔

مرحلہ 1: RDMA کی حمایت کو فعال کریں

ہر Mac پر عمل کریں:

  • Mac بند کریں، بحالی کے موڈ میں جائیں (پاور بٹن کو دبائے رکھیں، "Options" > "Continue" کا انتخاب کریں)
  • Terminal کھولیں، یہ چلائیں: bputil -a rdma
  • Mac کو دوبارہ شروع کریں
  • تصدیق کریں: systemprofiler SPThunderboltDataType RDMA کی فعالیت کی جانچ کریں
Thunderbolt 5 120Gbps بینڈوڈتھ فراہم کرتا ہے، جو ڈیٹا کی منتقلی کی بہترین حمایت کرتا ہے۔

مرحلہ 2: EXO انسٹال کریں

macOS ایپ انسٹالیشن: GitHub سے EXO-version.dmg ڈاؤن لوڈ کریں، انسٹال کریں اور چلائیں۔ Dashboard کھولیں اور دوسرے Mac کے IP شامل کریں۔

سورس کوڈ انسٹالیشن:

  • Homebrew انسٹال کریں
  • git clone https://github.com/exo-explore/exo.git
  • pip install -e .
  • exo start

مرحلہ 3: جسمانی کنکشن اور ٹوپولوجی

Wi-Fi کا استعمال کرکے نیٹ ورک نہ بنائیں! چاہے Wi-Fi 7 بھی ہو، یہ بھی نہیں چلتا۔ ایک ٹریلین ماڈل کی استدلال بینڈوڈتھ کے لیے انتہائی حساس ہے۔ براہ کرم Thunderbolt 5 کیبل کا استعمال کریں، ایک Mac کو ماسٹر نوڈ (Master) کے طور پر اور باقی تین کو ورک نوڈز (Worker) کے طور پر استعمال کریں۔ ستارے کی شکل کی ٹوپولوجی یا زنجیری کنکشن کی سفارش کی جاتی ہے۔

EXO Dashboard میں، آپ کو 4 عدد ڈیوائسز آن لائن نظر آنی چاہئیں، کل میموری پول 2048 GB دکھائی دے گا۔

مرحلہ 4: MLX کمیونٹی ورژن Kimi-K2.5 ڈاؤن لوڈ اور چلائیں

  • ماڈل ڈاؤن لوڈ کریں:
  • pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. استدلال انجن شروع کریں:

    exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx کمانڈ کی وضاحت:

    • --model: ماڈل ڈائریکٹری کی طرف اشارہ کرتا ہے
    • --quant 4: میموری کے استعمال کو کم کرنے کے لیے 4-bit کوانٹائزیشن کا استعمال کریں
    • --shards auto: EXO خودکار طور پر ماڈل کو ذہین طور پر تقسیم کرتا ہے
    • --engine mlx: M3 Ultra کے 76-core GPU اور Neural Engine کو استدلال کے لیے کال کرتا ہے

    آخری اثرات اور حقیقی تجربات

    جب ٹرمینل Ready دکھاتا ہے، تو آپ کے پاس ایک اپنا AI سپر کمپیوٹر ہے۔

    پری فل (Prefill) مرحلہ: 4 عدد Mac کے پنکھے ہلکی رفتار سے بڑھنے لگتے ہیں (M3 Ultra کی توانائی کی کارکردگی کی بدولت، یہ اڑ نہیں رہے ہیں)۔

    جنریشن (Generation) مرحلہ: ٹوکن ایک کے بعد ایک نکلتے ہیں۔

    رفتار: اگرچہ یہ H100 کلسٹر کے برابر نہیں ہے، لیکن Thunderbolt 5 کے RDMA کی بدولت، ٹوکن کی پیداوار کی رفتار 17-28 tokens/s تک پہنچ سکتی ہے۔ یہ ایک ٹریلین پیرا میٹر ماڈل کے لیے مکمل طور پر تعاملاتی ہے!

    خلاصہ

    یہ حل بالکل سستا نہیں ہے، لیکن یہ ثابت کرتا ہے کہ Apple Silicon + اوپن سورس کمیونٹی کی کوششوں کے تحت، غیر مرکزی AI کا مستقبل آ رہا ہے۔ ہمیں اپنے ڈیٹا کو کلاؤڈ کے بڑے کھلاڑیوں کو منتقل کرنے کی ضرورت نہیں ہے، اپنے پاس موجود آلات کا استعمال کرتے ہوئے، ہم طاقتور نجی استدلال کلسٹر بنا سکتے ہیں۔

    Published in Technology

    You Might Also Like

    📝
    Technology

    Claude Code Buddy ਸੋਧ ਗਾਈਡ: ਕਿਵੇਂ ਚਮਕਦਾਰ ਪੁਰਾਣੀ ਪਾਲਤੂ ਪ੍ਰਾਪਤ ਕਰੀਏ

    Claude Code Buddy ਸੋਧ ਗਾਈਡ: ਕਿਵੇਂ ਚਮਕਦਾਰ ਪੁਰਾਣੀ ਪਾਲਤੂ ਪ੍ਰਾਪਤ ਕਰੀਏ 2026年4月1日,Anthropic 在 Claude Code 2.1.89 版本中悄然上线了一个彩蛋功...

    Obsidian ਨੇ Defuddle ਜਾਰੀ ਕੀਤਾ, Obsidian Web Clipper ਨੂੰ ਇੱਕ ਨਵੇਂ ਉੱਚਾਈ 'ਤੇ ਲੈ ਗਿਆTechnology

    Obsidian ਨੇ Defuddle ਜਾਰੀ ਕੀਤਾ, Obsidian Web Clipper ਨੂੰ ਇੱਕ ਨਵੇਂ ਉੱਚਾਈ 'ਤੇ ਲੈ ਗਿਆ

    Obsidian ਨੇ Defuddle ਜਾਰੀ ਕੀਤਾ, Obsidian Web Clipper ਨੂੰ ਇੱਕ ਨਵੇਂ ਉੱਚਾਈ 'ਤੇ ਲੈ ਗਿਆ ਮੈਂ ਹਮੇਸ਼ਾਂ Obsidian ਦੇ ਮੁੱਖ ਵਿਚਾਰ ਨ...

    OpenAI اچانک "تین میں ایک" کا اعلان کرتا ہے: براؤزر + پروگرامنگ + ChatGPT کا انضمام، اندرونی طور پر تسلیم کیا کہ پچھلے سال غلط راستہ اختیار کیا گیاTechnology

    OpenAI اچانک "تین میں ایک" کا اعلان کرتا ہے: براؤزر + پروگرامنگ + ChatGPT کا انضمام، اندرونی طور پر تسلیم کیا کہ پچھلے سال غلط راستہ اختیار کیا گیا

    OpenAI اچانک "تین میں ایک" کا اعلان کرتا ہے: براؤزر + پروگرامنگ + ChatGPT کا انضمام، اندرونی طور پر تسلیم کیا کہ پچھلے س...

    2026, ਆਪਣੇ ਆਪ ਨੂੰ "ਆਤਮ-ਨਿਯੰਤਰਣ" ਕਰਨ ਲਈ ਦਬਾਉ ਨਾ ਦਿਓ! ਇਹ 8 ਛੋਟੇ ਕੰਮ ਕਰੋ, ਸਿਹਤ ਆਪ ਹੀ ਆਏਗੀHealth

    2026, ਆਪਣੇ ਆਪ ਨੂੰ "ਆਤਮ-ਨਿਯੰਤਰਣ" ਕਰਨ ਲਈ ਦਬਾਉ ਨਾ ਦਿਓ! ਇਹ 8 ਛੋਟੇ ਕੰਮ ਕਰੋ, ਸਿਹਤ ਆਪ ਹੀ ਆਏਗੀ

    2026, ਆਪਣੇ ਆਪ ਨੂੰ "ਆਤਮ-ਨਿਯੰਤਰਣ" ਕਰਨ ਲਈ ਦਬਾਉ ਨਾ ਦਿਓ! ਇਹ 8 ਛੋਟੇ ਕੰਮ ਕਰੋ, ਸਿਹਤ ਆਪ ਹੀ ਆਏਗੀ ਨਵਾਂ ਸਾਲ ਸ਼ੁਰੂ ਹੋ ਗਿਆ ਹੈ, ਕੀ ਤੁਸ...

    ਉਹ ਮਾਂਵਾਂ ਜੋ ਵਜ਼ਨ ਘਟਾਉਣ ਲਈ ਕੋਸ਼ਿਸ਼ ਕਰਦੀਆਂ ਹਨ, ਪਰ ਫਿਰ ਵੀ ਘਟ ਨਹੀਂ ਪਾਉਂਦੀਆਂ, ਇਹਨਾਂ ਨੂੰ ਇੱਥੇ ਹੀ ਫਸਣਾ ਪੈਂਦਾ ਹੈHealth

    ਉਹ ਮਾਂਵਾਂ ਜੋ ਵਜ਼ਨ ਘਟਾਉਣ ਲਈ ਕੋਸ਼ਿਸ਼ ਕਰਦੀਆਂ ਹਨ, ਪਰ ਫਿਰ ਵੀ ਘਟ ਨਹੀਂ ਪਾਉਂਦੀਆਂ, ਇਹਨਾਂ ਨੂੰ ਇੱਥੇ ਹੀ ਫਸਣਾ ਪੈਂਦਾ ਹੈ

    ਉਹ ਮਾਂਵਾਂ ਜੋ ਵਜ਼ਨ ਘਟਾਉਣ ਲਈ ਕੋਸ਼ਿਸ਼ ਕਰਦੀਆਂ ਹਨ, ਪਰ ਫਿਰ ਵੀ ਘਟ ਨਹੀਂ ਪਾਉਂਦੀਆਂ, ਇਹਨਾਂ ਨੂੰ ਇੱਥੇ ਹੀ ਫਸਣਾ ਪੈਂਦਾ ਹੈ ਮਾਰਚ ਦਾ ਅੱਧਾ ...

    📝
    Technology

    AI Browser 24 ਘੰਟੇ ਸਥਿਰ ਚਾਲੂ ਰੱਖਣ ਦੀ ਗਾਈਡ

    AI Browser 24 ਘੰਟੇ ਸਥਿਰ ਚਾਲੂ ਰੱਖਣ ਦੀ ਗਾਈਡ ਇਹ ਟਿਊਟੋਰੀਅਲ ਦੱਸਦਾ ਹੈ ਕਿ ਕਿਵੇਂ ਇੱਕ ਸਥਿਰ, ਲੰਬੇ ਸਮੇਂ ਤੱਕ ਚੱਲਣ ਵਾਲਾ AI ਬ੍ਰਾਊਜ਼ਰ ਵ...