GLM-5：جب بڑے ماڈل 'خود کوڈ لکھنا' سیکھتے ہیں، Vibe Coding سے Agentic Engineering تک کا سفر

❝

🎯 ایک جملے میں خلاصہ：智谱AI نے 清华大学 کے ساتھ مل کر 744B پیرامیٹرز کا GLM-5 ماڈل متعارف کرایا، جو DeepSeek Sparse Attention（DSA） کے ذریعے توجہ کی حساب کتاب کی مقدار کو کم کرتا ہے، مکمل غیر متزامن تقویت سیکھنے (Async RL) کے ذریعے طویل کاموں کی تربیت کی کارکردگی کو حل کرتا ہے، اور متعدد مراحل کی بعد کی تربیت کے عمل کے ذریعے، بڑے ماڈل کو 'محسوس کرنے والے کوڈنگ' (Vibe Coding) سے ترقی دے کر 'ذہین انجینئر' (Agentic Engineering) بناتا ہے جو حقیقی انجینئرنگ پروجیکٹس کو خود مختاری سے مکمل کر سکتا ہے۔

ہمیں یہ مقالہ کیوں چاہیے؟

Andrej Karpathy نے 2025 کے آغاز میں ایک دلچسپ تصور پیش کیا — Vibe Coding، جس کا مطلب ہے کہ آپ کو صرف قدرتی زبان میں ضروریات بیان کرنی ہیں، 'محسوس کرتے ہوئے' AI سے کوڈ لکھوانا ہے۔ یہ واقعی موجودہ AI پروگرامنگ کا مرکزی تجربہ ہے: آپ ایک جملہ کہتے ہیں، ماڈل آپ کے لیے ایک کوڈ کا ٹکڑا تیار کرتا ہے، اس کا اثر اچھا ہے یا برا یہ سب قسمت پر منحصر ہے۔

لیکن مسئلہ یہ ہے: حقیقی سافٹ ویئر انجینئرنگ صرف 'کوڈ لکھنے' سے کہیں زیادہ پیچیدہ ہے۔ ایک حقیقی انجینئر کو پروجیکٹ کی ساخت کو سمجھنا، غلطیوں کو ڈیبگ کرنا، انحصار کا انتظام کرنا، اور ماڈیولز کے درمیان تعاون کو سنبھالنا ضروری ہے — یہ سب 'ایک پرامپٹ سے ایک کوڈ کا ٹکڑا' حاصل کرنے سے حل نہیں ہو سکتے۔ GLM-5 کا یہ مقالہ یہ کرنے کی کوشش کر رہا ہے کہ ماڈل کو 'آپ کے لیے کوڈ لکھنے والے معاون' سے 'پورے پروجیکٹ کو خود مختاری سے مکمل کرنے والے انجینئر' میں تبدیل کیا جائے۔

یہ کوئی چھوٹا ہدف نہیں ہے۔ اس کو حاصل کرنے کے لیے،智谱 ٹیم نے ماڈل کی ساخت، تربیت کے عمل، اور تقویت سیکھنے کے الگورڈمز میں بہت سی نئی چیزیں کی ہیں۔ یہ تشریح آپ کو ان تکنیکی تفصیلات کو سمجھنے میں مدد دے گی۔

بنیادی شراکت: تین اہم نکات

تفصیلات میں جانے سے پہلے، GLM-5 کی تین بنیادی شراکتوں کو واضح کریں:

| شراکت | حل کردہ مسئلہ | بنیادی خیال | |--------|----------------|--------------| | DSA Sparse Attention | 128K لمبے سیاق و سباق کی حساب کتاب کا بوجھ | اہم ٹوکن کا متحرک انتخاب، غیر متعلقہ کو چھوڑنا، 1.5-2 گنا حساب کی طاقت کی بچت | | غیر متزامن تقویت سیکھنے کا فریم ورک | طویل کاموں کی RL تربیت میں GPU کی بڑی مقدار میں غیر فعال ہونا | پیداوار اور تربیت کو مکمل طور پر الگ کرنا، پائپ لائن کی طرح متوازی | | کئی مراحل کی بعد کی تربیت کا عمل | استدلال، کوڈنگ، ذہین ایجنٹ وغیرہ کی متعدد صلاحیتوں کا متوازن رکھنا مشکل | SFT→استدلال RL→ذہین ایجنٹ RL→عمومی RL، بتدریج صلاحیتوں کا اضافہ |

ماڈل کی ساخت: MoE کے ڈھانچے پر 'کمی' کرنا

بنیادی ترتیب

GLM-5 نے Mixture-of-Experts (MoE) ڈھانچہ اپنایا ہے، کل پیرامیٹرز 744B ہیں، لیکن ہر بار استدلال کے دوران تقریباً 40B پیرامیٹرز کو فعال کیا جاتا ہے۔ یہ 'بڑا اور پتلا' ڈیزائن صنعت میں ایک عام رائے بن چکا ہے — DeepSeek-V3/R1، Qwen3 نے بھی اسی طرح کا راستہ اختیار کیا ہے۔

DSA واقعی کیسے کام کرتا ہے؟

DSA کا بنیادی خیال ایک تمثیل کے ذریعے سمجھا جا سکتا ہے: تصور کریں کہ آپ لائبریری میں مواد تلاش کر رہے ہیں۔ معیاری توجہ بالکل ایسے ہے جیسے آپ پورے لائبریری کی ہر کتاب کو پلٹتے ہیں، پھر فیصلہ کرتے ہیں کہ کون سی مفید ہے۔ جبکہ DSA ایک تجربہ کار لائبریرین کی طرح ہے — یہ پہلے چمکدار انڈیکس (Lightning Index) کا استعمال کرتے ہوئے کتابوں کی الماری کے عنوانات کو تیزی سے اسکین کرتا ہے، چند ممکنہ متعلقہ علاقوں کو نشانہ بناتا ہے، پھر صرف ان علاقوں میں موجود مخصوص پیراگراف کا بغور مطالعہ کرتا ہے۔

تربیت کا عمل: چار مراحل میں 'مخلوق کو ترقی دینا'

GLM-5 کا تربیت کا عمل اس مقالے کا اہم حصہ ہے، جو پیشگی تربیت اور بعد کی تربیت کے دو بڑے مراحل میں تقسیم کیا گیا ہے۔

پیشگی تربیت کا مرحلہ

ڈیٹا کا حجم: 27T ٹوکن، ڈیٹا کے مرکب میں ویب صفحات، کوڈ، سائنسی مضامین، کتابیں وغیرہ شامل ہیں
سیاق و سباق کی توسیع: درمیانی تربیت کے ذریعے سیاق و سباق کو 4K سے بتدریج 200K تک بڑھانا، RoPE کی فریکوئنسی ایڈجسٹمنٹ کا استعمال
اینہلنگ مرحلہ: پیشگی تربیت کے آخر میں اعلیٰ معیار کے ڈیٹا کے ساتھ 'فائن ٹیوننگ' کرنا

بعد کی تربیت کی چار اقساط

یہ GLM-5 کا سب سے منفرد حصہ ہے۔ GLM-5 نے چار راؤنڈز کی:

نگرانی کی باریک بینی (SFT) اعلیٰ معیار کے ہدایت کے ڈیٹا کے ساتھ باریک بینی کرنا۔
استدلال کی تقویت سیکھنے (Reasoning RL) ریاضی اور کوڈ استدلال کے کاموں پر RL تربیت کرنا۔
ذہین ایجنٹ کی تقویت سیکھنے (Agentic RL)، یہ اہم نئی چیز ہے۔
عمومی تقویت سیکھنے (General RL)، وسیع تر عمومی کاموں پر RL کرنا۔

غیر متزامن تقویت سیکھنے: GPU کو 'بیکار' ہونے سے بچانا

روایتی RL تربیت ہم وقت ہوتی ہے: ایک ڈیٹا کا ایک بیچ جمع کرنا → انعام کا حساب کرنا → ماڈل کو اپ ڈیٹ کرنا → دوبارہ جمع کرنا۔ یہ مختصر کام کے وقت کے حالات میں کوئی مسئلہ نہیں ہے، لیکن ذہین ایجنٹ کے کاموں میں اکثر کئی مراحل کی تعامل کی ضرورت ہوتی ہے۔

تجرباتی نتائج کی گہرائی میں تشریح

اہم معیار کا موازنہ

| معیار | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | |--------|--------|----------------|----------------|---------------|-----------|-----------| | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

خلاصہ

GLM-5 کا یہ مقالہ معلومات سے بھرپور ہے۔ مخصوص اعداد و شمار کو چھوڑ کر، اس کا بنیادی پیغام یہ ہے: بڑے ماڈل کا اگلا میدان 'کام کرنا' ہے نہ کہ صرف 'سوالات کے جواب دینا'۔

مقابلے کے لحاظ سے، GLM-5 نے چین کی AI ٹیموں کی بڑے ماڈل کی سرحدی تحقیق میں مقابلہ کرنے کی صلاحیت کو ثابت کیا ہے۔

مقالے کی معلومات

عنوان: GLM-5: Vibe Coding سے Agentic Engineering تک
ادارہ: 智谱AI & 清华大学
لنک：https://arxiv.org/abs/2602.15763

GLM-5: جب بڑے ماڈل 'خود کوڈ لکھنا' سیکھتے ہیں، Vibe Coding سے Agentic Engineering تک کا سفر

GLM-5：جب بڑے ماڈل 'خود کوڈ لکھنا' سیکھتے ہیں، Vibe Coding سے Agentic Engineering تک کا سفر

ہمیں یہ مقالہ کیوں چاہیے؟

بنیادی شراکت: تین اہم نکات

ماڈل کی ساخت: MoE کے ڈھانچے پر 'کمی' کرنا

بنیادی ترتیب

DSA واقعی کیسے کام کرتا ہے؟

تربیت کا عمل: چار مراحل میں 'مخلوق کو ترقی دینا'

پیشگی تربیت کا مرحلہ

بعد کی تربیت کی چار اقساط

غیر متزامن تقویت سیکھنے: GPU کو 'بیکار' ہونے سے بچانا

تجرباتی نتائج کی گہرائی میں تشریح

اہم معیار کا موازنہ

خلاصہ

مقالے کی معلومات

You Might Also Like

Claude Code Buddy ترمیم گائیڈ: چمکدار لیجنڈری پالتو جانور کیسے حاصل کریں

Obsidian نے Defuddle متعارف کرایا، Obsidian Web Clipper کو ایک نئے عروج پر لے گیا

OpenAI اچانک اعلان کرتا ہے "تین میں ایک": براؤزر + پروگرامنگ + ChatGPT کا انضمام، اندرونی طور پر تسلیم کیا کہ پچھلے سال غلط راستہ اختیار کیا گیا

2026، خود کو "خود نظم" کرنے پر مجبور نہ کریں! یہ 8 چھوٹے کام کریں، صحت خود بخود آئے گی

وہ مائیں جو وزن کم کرنے کی کوشش کر رہی ہیں لیکن کامیاب نہیں ہو پا رہی ہیں، یقیناً یہاں پھنس گئی ہیں

AI Browser 24 گھنٹے مستحکم چلانے کی رہنمائی