GLM-5: عندما تتعلم النماذج الكبيرة "كتابة الشيفرة بنفسها"، من Vibe Coding إلى Agentic Engineering

❝

🎯 ملخص في جملة واحدة: أطلقت Zhizhu AI بالتعاون مع جامعة Tsinghua نموذج GLM-5 الذي يحتوي على 744 مليار معلمة، من خلال تقنيات مثل DeepSeek Sparse Attention (DSA) لتقليل عبء حساب الانتباه، والتعلم المعزز غير المتزامن (Async RL) لتحسين كفاءة تدريب المهام الطويلة، وعملية تدريب متعددة المراحل، مما يجعل النموذج الكبير يتطور من "ترميز الأجواء" (Vibe Coding) إلى "مهندس وكيل" (Agentic Engineering) قادر على إتمام مشاريع هندسية حقيقية بشكل مستقل.

لماذا نحتاج إلى هذه الورقة؟

قدم أندريه كارباثي في بداية عام 2025 مفهومًا مثيرًا للاهتمام - Vibe Coding، مما يعني أنه يمكنك فقط وصف المتطلبات بلغة طبيعية، و"بحدس" جعل الذكاء الاصطناعي يكتب الشيفرة. هذه هي بالفعل التجربة السائدة في برمجة الذكاء الاصطناعي الحالية: تقول جملة واحدة، ويساعدك النموذج في توليد جزء من الشيفرة، والنتيجة تعتمد على الحظ.

لكن المشكلة تكمن في: الهندسة البرمجية الحقيقية ليست بسيطة كما "كتابة الشيفرة". يحتاج المهندس الحقيقي إلى فهم هيكل المشروع، وتصحيح الأخطاء، وإدارة الاعتماديات، والتعامل مع التعاون عبر الوحدات - كل هذه الأمور لا يمكن حلها بـ"جملة واحدة تنتج جزءًا من الشيفرة". ما تهدف إليه ورقة GLM-5 هو تحويل النموذج من "مساعد يكتب الشيفرة" إلى "مهندس قادر على إتمام المشروع بالكامل".

هذا ليس هدفًا صغيرًا. لتحقيق ذلك، قام فريق Zhizhu بإجراء العديد من الابتكارات في هيكل النموذج، وعملية التدريب، وخوارزميات التعلم المعزز. ستأخذك هذه المقالة في تفكيك هذه التفاصيل التقنية.

المساهمة الأساسية: ثلاث أدوات رئيسية

قبل الخوض في التفاصيل، دعنا نوضح ثلاث مساهمات أساسية لـ GLM-5:

المساهمة | المشكلة التي تم حلها | الفكرة الأساسية --- | --- | --- DSA الانتباه النادر | تكلفة حساب السياق الطويل 128K انفجارية | اختيار ديناميكي للرموز المهمة، وتجاوز غير ذات الصلة، مما يوفر 1.5-2 مرة من القدرة الحسابية إطار التعلم المعزز غير المتزامن | فراغ كبير في GPU أثناء تدريب RL للمهام الطويلة | فصل التوليد والتدريب تمامًا، مما يسمح بالتوازي على شكل خط أنابيب عملية التدريب متعددة المراحل | صعوبة التوازن بين القدرات المتعددة مثل الاستدلال والترميز والوكيل | SFT → استدلال RL → وكيل RL → RL العام، مما يضيف القدرات تدريجيًا

هيكل النموذج: إجراء "طرح" على هيكل MoE

التكوين الأساسي

يستخدم GLM-5 هيكل Mixture-of-Experts (MoE)، بإجمالي 744 مليار معلمة، لكن يتم تنشيط حوالي 40 مليار معلمة فقط في كل استدلال. لقد أصبح هذا التصميم "الكبير والنادر" هو الإجماع في الصناعة - حيث اتبعت DeepSeek-V3/R1 وQwen3 مسارات مشابهة.

كيف يعمل DSA بالضبط؟

يمكن فهم الفكرة الأساسية لـ DSA من خلال تشبيه: تخيل أنك تبحث عن معلومات في مكتبة. الانتباه القياسي يشبه تصفح كل كتاب في المكتبة ثم اتخاذ قرار بشأن ما هو مفيد. بينما DSA يشبه أمين مكتبة ذو خبرة - حيث يقوم أولاً باستخدام فهرس البرق (Lightning Index) لمسح عناوين الرفوف بسرعة، وتحديد بعض المناطق المحتملة ذات الصلة، ثم يقرأ بعمق فقط الفقرات المحددة في تلك المناطق.

عملية التدريب: أربع مراحل "ترقية"

تعتبر عملية تدريب GLM-5 الجزء الأهم في هذه الورقة، وتنقسم إلى مرحلتين رئيسيتين: التدريب المسبق والتدريب اللاحق.

مرحلة التدريب المسبق

حجم البيانات: 27 تيرابايت من الرموز، تشمل نسب مختلطة من الويب، الشيفرة، الأوراق الأكاديمية، الكتب، وغيرها.
توسيع السياق: من خلال التدريب الوسيط، يتم توسيع السياق من 4K تدريجيًا إلى 200K، باستخدام تعديل تردد RoPE.
مرحلة التبريد: في نهاية التدريب المسبق، يتم استخدام بيانات ذات جودة أعلى للقيام بـ"تحسين".

التدريب اللاحق بأربع خطوات

هذا هو الجزء الأكثر تميزًا في GLM-5. قام GLM-5 بإجراء أربع جولات:

التعديل الدقيق تحت الإشراف (SFT) باستخدام بيانات تعليمات عالية الجودة.
تعلم التعزيز الاستدلالي (Reasoning RL) في مهام الاستدلال الرياضي والشيفرة.
تعلم التعزيز الوكلي (Agentic RL)، وهو الابتكار الرئيسي.
تعلم التعزيز العام (General RL)، في مهام عامة أوسع.

التعلم المعزز غير المتزامن: لجعل GPU لا "يستريح"

التدريب التقليدي للتعلم المعزز هو متزامن: جمع مجموعة من البيانات → حساب المكافآت → تحديث النموذج → جمع مرة أخرى. هذا لا يمثل مشكلة في حالة المهام القصيرة، لكن مهام الوكيل غالبًا ما تحتاج إلى تفاعلات متعددة.

تحليل عميق لنتائج التجارب

مقارنة المعايير الرئيسية

| المعايير | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

الخلاصة

تحتوي ورقة GLM-5 على كمية كبيرة من المعلومات. بغض النظر عن الأرقام المحددة، الرسالة الأساسية التي تنقلها هي: ساحة المعركة التالية للنماذج الكبيرة هي "العمل" وليس فقط "الإجابة على الأسئلة".

على المستوى التنافسي، أثبت GLM-5 قدرة فرق الذكاء الاصطناعي الصينية في أبحاث النماذج الكبيرة المتقدمة.

معلومات الورقة

العنوان: GLM-5: من Vibe Coding إلى Agentic Engineering
المؤسسة: Zhizhu AI & جامعة Tsinghua
الرابط: https://arxiv.org/abs/2602.15763

GLM-5: عندما تتعلم النماذج الكبيرة "كتابة الشيفرة بنفسها"، من Vibe Coding إلى Agentic Engineering

GLM-5: عندما تتعلم النماذج الكبيرة "كتابة الشيفرة بنفسها"، من Vibe Coding إلى Agentic Engineering

لماذا نحتاج إلى هذه الورقة؟

المساهمة الأساسية: ثلاث أدوات رئيسية

هيكل النموذج: إجراء "طرح" على هيكل MoE

التكوين الأساسي

كيف يعمل DSA بالضبط؟

عملية التدريب: أربع مراحل "ترقية"

مرحلة التدريب المسبق

التدريب اللاحق بأربع خطوات

التعلم المعزز غير المتزامن: لجعل GPU لا "يستريح"

تحليل عميق لنتائج التجارب

مقارنة المعايير الرئيسية

الخلاصة

معلومات الورقة

You Might Also Like

Claude Code Buddy تعديل الدليل: كيفية الحصول على حيوان أليف أسطوري لامع

أوبسيديان أطلقت Defuddle، ورفعت أوبسيديان ويب كليبر إلى مستوى جديد

OpenAI فجأة تعلن عن "ثلاث في واحد": دمج المتصفح + البرمجة + ChatGPT، والاعتراف داخليًا بأن العام الماضي كان خاطئًا

2026، لا تضغط على نفسك لتكون "منضبطًا"! قم بهذه 8 أشياء بسيطة، وستأتي الصحة بشكل طبيعي

الأمهات اللواتي يبذلن جهدًا لفقدان الوزن ولا ينجحن، بالتأكيد يعانين هنا

دليل تشغيل متصفح الذكاء الاصطناعي على مدار 24 ساعة