هل تكلف فقط 300,000؟ دليل نشر محلي لنموذج Kimi-K2.5 بمليار معلمة على 4 أجهزة Mac Studio بسعة 512GB
هل تكلف فقط 300,000؟ دليل نشر محلي لنموذج Kimi-K2.5 بمليار معلمة على 4 أجهزة Mac Studio بسعة 512GB
في هذا العصر الذي يشهد تسارع نماذج الذكاء الاصطناعي الكبيرة، لدينا جميعًا حلم: تشغيل نموذج بمليار معلمة يضاهي مستوى GPT-5 محليًا. لكن الواقع قاسٍ، فالنماذج بمليار معلمة حتى مع تقنيات التكميم 4-bit تحتاج إلى ذاكرة رسومية هائلة. بطاقات H100 وB200 باهظة الثمن، ماذا نفعل إذا لم نستطع شرائها؟
اليوم، سيأخذنا JamePeng لبناء حاسوب فائق محلي للذكاء الاصطناعي بسعة ذاكرة موحدة تبلغ 2TB باستخدام 4 أجهزة Mac Studio مزودة بمعالج M3 Ultra، من خلال EXO+MLX وThunderbolt 5! الهدف واحد فقط: تشغيل نموذج Kimi-K2.5 بمليار معلمة محليًا.
لماذا نحتاج إلى كل هذا العناء؟
ليس فقط من أجل المتعة، بل أيضًا من أجل خصوصية البيانات والسيطرة الكاملة المحلية.
السلاح الرئيسي هو EXO (GitHub: exo-explore/exo)، الذي يدعم RDMA (الوصول المباشر للذاكرة عن بُعد)، مما يمكنه من دمج ذاكرة 4 أجهزة Mac في مجموعة ذاكرة رسومية ضخمة.
قائمة الأجهزة: 4 أجهزة Mac Studio (M3 Ultra، إصدار 512GB)، إجمالي الذاكرة الرسومية حوالي 2TB، متصلة عبر Thunderbolt 5 (عرض نطاق 120Gbps)، النظام يحتاج إلى macOS Tahoe 26.2 أو إصدار أحدث.
الخطوة 1: تفعيل دعم RDMA
قم بالعمليات التالية على كل جهاز Mac:
- أوقف تشغيل Mac، وادخل وضع الاسترداد (اضغط مع الاستمرار على زر الطاقة، واختر "Options" > "Continue")
- افتح Terminal، ثم نفذ: bputil -a rdma
- أعد تشغيل Mac
- تحقق: systemprofiler SPThunderboltDataType للتحقق من تفعيل RDMA
الخطوة 2: تثبيت EXO
تثبيت تطبيق macOS: قم بتنزيل EXO-version.dmg من GitHub، ثم قم بتثبيته وتشغيله. افتح لوحة التحكم وأضف IP للأجهزة الأخرى.
تثبيت من المصدر:
- تثبيت Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
الخطوة 3: الاتصال الفيزيائي والتوبولوجيا
لا تستخدم Wi-Fi لإنشاء الشبكة! حتى Wi-Fi 7 لن يكون كافيًا. إن استدلال النموذج بمليار معلمة حساس للغاية لعرض النطاق. يرجى استخدام كابل Thunderbolt 5، واجعل جهاز Mac واحدًا كعقدة رئيسية (Master)، والأجهزة الثلاثة الأخرى كعقد عمل (Worker). يوصى باستخدام توبولوجيا نجمي أو اتصال تسلسلي.
في لوحة EXO، يجب أن ترى جميع الأجهزة الأربعة متصلة، ويظهر إجمالي مجموعة الذاكرة كـ 2048 GB.
الخطوة 4: تنزيل وتشغيل إصدار MLX المجتمعي Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. بدء محرك الاستدلال:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx تحليل الأوامر:
- --model: يشير إلى دليل النموذج
- --quant 4: استخدام التكميم 4-bit لتقليل استخدام الذاكرة
- --shards auto: EXO يقوم بتقسيم النموذج تلقائيًا
- --engine mlx: استدعاء GPU المكون من 76 نواة وNeural Engine في M3 Ultra لإجراء الاستدلال
التأثير النهائي والاختبار العملي
عندما تظهر الرسالة "Ready" في الطرفية، سيكون لديك حاسوب فائق خاص بك للذكاء الاصطناعي.
مرحلة التعبئة المسبقة (Prefill): تبدأ مراوح 4 أجهزة Mac في التسارع قليلاً (بفضل كفاءة M3 Ultra، لن ترتفع بشكل كبير).
مرحلة التوليد (Generation): تظهر الرموز واحدة تلو الأخرى.
السرعة: على الرغم من أنها لا تقارن مع مجموعة H100، إلا أنه بفضل دعم RDMA من Thunderbolt 5، يمكن أن تصل سرعة توليد الرموز إلى 17-28 tokens/s. هذا يعتبر تفاعليًا تمامًا لنموذج بمليار معلمة!
الخلاصة
هذه الخطة بالتأكيد ليست رخيصة، لكنها تثبت أنه بفضل جهود Apple Silicon + المجتمع المفتوح المصدر، فإن مستقبل الذكاء الاصطناعي اللامركزي قادم. لا نحتاج إلى إرسال البيانات إلى عمالقة السحابة، باستخدام الأجهزة المتاحة لدينا، يمكننا بناء مجموعات استدلال خاصة قوية.

