GLM-5:जेव्हा मोठे मॉडेल 'स्वतः कोड लिहिणे' शिकतात, Vibe Coding पासून Agentic Engineering पर्यंतचा प्रवास

2/26/2026
4 min read

GLM-5:जेव्हा मोठे मॉडेल 'स्वतः कोड लिहिणे' शिकतात, Vibe Coding पासून Agentic Engineering पर्यंतचा प्रवास

🎯 एक वाक्यात सारांश:झीपु AI ने तिळा विद्यापीठासोबत मिळून 744B पॅरामीटर्सचा GLM-5 मॉडेल लॉन्च केला आहे, जो DeepSeek Sparse Attention (DSA) द्वारे लक्ष केंद्रित करण्याच्या गणनेची मात्रा कमी करतो, पूर्ण असिंक्रोनस बळकटी शिक्षण (Async RL) द्वारे दीर्घ कार्य प्रशिक्षण कार्यक्षमता सुधारतो, आणि बहु-चरणीय नंतर प्रशिक्षण प्रक्रियेद्वारे मोठ्या मॉडेलला 'वायब कोडिंग' (Vibe Coding) पासून स्वतंत्रपणे वास्तविक अभियांत्रिकी प्रकल्प पूर्ण करणाऱ्या 'इंटेलिजेंट इंजिनिअर' (Agentic Engineering) मध्ये विकसित करतो.

या पेपरची आवश्यकता का आहे?

Andrej Karpathy ने 2025 च्या सुरुवातीस एक मनोरंजक संकल्पना मांडली - Vibe Coding, म्हणजे तुम्हाला फक्त नैसर्गिक भाषेत आवश्यकता वर्णन करायची आहे, 'भावनेने' AI ला कोड लिहायला सांगायचे आहे. हे खरे तर सध्याच्या AI प्रोग्रामिंगचा मुख्य अनुभव आहे: तुम्ही एक वाक्य बोलता, मॉडेल तुम्हाला एक कोडचा तुकडा तयार करून देते, परिणाम चांगला आहे की नाही हे सर्व नशीबावर अवलंबून आहे.

पण समस्या येते: खरे सॉफ्टवेअर अभियांत्रिकी 'कोड लिहिणे' इतके सोपे नाही. एक खरा अभियांत्रिक प्रकल्पाची रचना समजून घेणे, त्रुटींचे डिबगिंग करणे, अवलंबन व्यवस्थापित करणे, क्रॉस-मॉड्यूल सहकार्य हाताळणे आवश्यक आहे - हे सर्व 'एक प्रॉम्प्टमध्ये एक कोडचा तुकडा' यामुळे साधता येत नाही. GLM-5 या पेपरचे उद्दिष्ट म्हणजे मॉडेलला 'तुमच्या कोड लेखनाच्या सहाय्यक' पासून 'संपूर्ण प्रकल्प स्वतंत्रपणे हाताळणारा अभियांत्रिक' मध्ये रूपांतरित करणे.

हे एक लहान लक्ष्य नाही. यासाठी, झीपु टीमने मॉडेल आर्किटेक्चर, प्रशिक्षण प्रक्रिया, बळकटी शिक्षण अल्गोरिदमवर मोठ्या प्रमाणात नवकल्पना केली आहे. हा विश्लेषण तुम्हाला या तांत्रिक तपशीलांचे विघटन करण्यात मदत करेल.

मुख्य योगदान: तीन मुख्य मुद्दे

तपशीलात जाण्यापूर्वी, GLM-5 च्या तीन मुख्य योगदानांची स्पष्टता करा:

| योगदान | समस्येचे समाधान | मुख्य विचार | | --- | --- | --- | | DSA Sparse Attention | 128K लांब संदर्भाची गणनात्मक खर्च वाढवणे | महत्त्वाच्या टोकनची गतिशील निवड, अप्रासंगिक टोकन वगळणे, 1.5-2x गणनाशक्ती वाचवणे | | Asynchronous Reinforcement Learning Framework | दीर्घ कार्य RL प्रशिक्षणात GPU चा मोठा वापर | उत्पादन आणि प्रशिक्षण पूर्णपणे विभक्त करणे, पाईपलाइन पद्धतीने समांतर | | Multi-stage Post-training Process | विचार, कोडिंग, इंटेलिजेंट इत्यादी अनेक क्षमतांचे संतुलन साधणे | SFT→ विचार RL→ इंटेलिजेंट RL→ सामान्य RL, हळूहळू क्षमता वाढवणे |

मॉडेल आर्किटेक्चर: MoE च्या हाडांवर 'कमी करणे'

मूलभूत कॉन्फिगरेशन

GLM-5 ने Mixture-of-Experts (MoE) आर्किटेक्चर स्वीकारले आहे, एकूण पॅरामीटर्स 744B आहेत, परंतु प्रत्येक वेळी विचार करताना सुमारे 40B पॅरामीटर्स सक्रिय केले जातात. हे 'मोठे आणि विरळ' डिझाइन उद्योगात एकमत झाले आहे - DeepSeek-V3/R1, Qwen3 नेही समान मार्ग स्वीकारला आहे.

DSA कसे कार्य करते?

DSA चा मुख्य विचार एक उपमा वापरून समजून घेता येतो: कल्पना करा तुम्ही ग्रंथालयात माहिती शोधत आहात. मानक लक्ष म्हणजे संपूर्ण ग्रंथालयातील प्रत्येक पुस्तक उलटणे आणि नंतर कोणती माहिती उपयुक्त आहे हे ठरवणे. तर DSA एक अनुभवी ग्रंथपालासारखे आहे - तो आधी लाइटनिंग इंडेक्सर वापरून शेल्फच्या शीर्षकांचे जलद स्कॅन करतो, काही संभाव्य संबंधित क्षेत्रे लॉक करतो, आणि नंतर फक्त त्या क्षेत्रांमधील विशिष्ट अनुच्छेदांचे सखोल वाचन करतो.

प्रशिक्षण प्रक्रिया: चार टप्प्यांची 'क्रीडा स्तरावर वाढवणे'

GLM-5 चा प्रशिक्षण प्रक्रिया या पेपरचा मुख्य भाग आहे, जो पूर्व प्रशिक्षण आणि नंतर प्रशिक्षण या दोन मोठ्या टप्प्यात विभागला आहे.

पूर्व प्रशिक्षण टप्पा

  • डेटा प्रमाण: 27T टोकन, डेटा मिश्रणात वेबपृष्ठ, कोड, शैक्षणिक लेख, पुस्तके इत्यादींचा समावेश आहे
  • संदर्भ विस्तार: मध्यवर्ती प्रशिक्षणाद्वारे संदर्भ 4K पासून हळूहळू 200K पर्यंत वाढवला जातो, RoPE वारंवारता समायोजन वापरून
  • अँहिलिंग टप्पा: पूर्व प्रशिक्षणाच्या शेवटी उच्च गुणवत्तेच्या डेटासह 'सुधारणा' केली जाते

नंतर प्रशिक्षण चार टप्पे

हे GLM-5 चा सर्वात विशेष भाग आहे. GLM-5 ने चार फेऱ्या केल्या:

  • सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) उच्च गुणवत्तेच्या निर्देश डेटा वापरून फाइन-ट्यूनिंग.
  • विचार बळकटी शिक्षण (Reasoning RL) गणित आणि कोड विचार कार्यांवर RL प्रशिक्षण.
  • इंटेलिजेंट बळकटी शिक्षण (Agentic RL), हे मुख्य नवकल्पना आहे.
  • सामान्य बळकटी शिक्षण (General RL), अधिक व्यापक सामान्य कार्यांवर RL.

असिंक्रोनस बळकटी शिक्षण: GPU ला 'काम न करणे' थांबवणे

परंपरागत RL प्रशिक्षण सिंक्रोनस आहे: डेटा एकत्रित करणे → बक्षीस गणना करणे → मॉडेल अपडेट करणे → पुन्हा डेटा एकत्रित करणे. हे कार्य वेळ कमी असलेल्या परिस्थितीत समस्या नाही, परंतु इंटेलिजेंट कार्य अनेकदा अनेक पायऱ्यांच्या संवादाची आवश्यकता असते.

प्रयोगात्मक परिणामांचे गहन विश्लेषण

मुख्य मानक तुलना

| मानक | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

सारांश

GLM-5 या पेपरची माहिती खूप मोठी आहे. विशिष्ट आकडेवारीकडे दुर्लक्ष करून, त्याने दिलेला मुख्य संदेश आहे: मोठ्या मॉडेलचा पुढील युद्धभूमी 'काम करणे' आहे, फक्त 'प्रश्नांची उत्तरे देणे' नाही.

स्पर्धात्मक स्तरावर, GLM-5 ने चीनच्या AI टीमच्या मोठ्या मॉडेलच्या आघाडीच्या संशोधनात स्पर्धात्मकतेचे प्रमाणित केले आहे.

पेपर माहिती

  • शीर्षक: GLM-5: Vibe Coding पासून Agentic Engineering पर्यंत
  • संस्था: झीपु AI & तिळा विद्यापीठ
  • लिंक:https://arxiv.org/abs/2602.15763
Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy सुधारणा मार्गदर्शक: कसे मिळवायचे चमकदार किंवदंती स्तराचे पाळीव प्राणी

Claude Code Buddy सुधारणा मार्गदर्शक: कसे मिळवायचे चमकदार किंवदंती स्तराचे पाळीव प्राणी 2026年4月1日,Anthropic 在 Claude Cod...

Obsidian ने Defuddle लॉन्च केला, Obsidian Web Clipper ला एक नवीन उंचीवर नेलेTechnology

Obsidian ने Defuddle लॉन्च केला, Obsidian Web Clipper ला एक नवीन उंचीवर नेले

Obsidian ने Defuddle लॉन्च केला, Obsidian Web Clipper ला एक नवीन उंचीवर नेले मी नेहमीच Obsidian च्या मुख्य तत्त्वांवर प...

OpenAI अचानक 'तीन-एक' ची घोषणा करते: ब्राउझर + प्रोग्रामिंग + ChatGPT एकत्रित, आतमध्ये मान्य केले की गेल्या वर्षी चुकीचा मार्ग घेतलाTechnology

OpenAI अचानक 'तीन-एक' ची घोषणा करते: ब्राउझर + प्रोग्रामिंग + ChatGPT एकत्रित, आतमध्ये मान्य केले की गेल्या वर्षी चुकीचा मार्ग घेतला

OpenAI अचानक 'तीन-एक' ची घोषणा करते: ब्राउझर + प्रोग्रामिंग + ChatGPT एकत्रित, आतमध्ये मान्य केले की गेल्या वर्षी चुकीचा...

2026, स्वतःला 'आत्मशिस्त' देण्याची गरज नाही! या 8 लहान गोष्टी करा, आरोग्य आपोआप येईलHealth

2026, स्वतःला 'आत्मशिस्त' देण्याची गरज नाही! या 8 लहान गोष्टी करा, आरोग्य आपोआप येईल

2026, स्वतःला 'आत्मशिस्त' देण्याची गरज नाही! या 8 लहान गोष्टी करा, आरोग्य आपोआप येईल नवीन वर्षाची सुरुवात झाली आहे, गेल...

त्या मेहनतीने वजन कमी करण्याचा प्रयत्न करणाऱ्या मातांना, नक्कीच इथेच अडचण येतेHealth

त्या मेहनतीने वजन कमी करण्याचा प्रयत्न करणाऱ्या मातांना, नक्कीच इथेच अडचण येते

त्या मेहनतीने वजन कमी करण्याचा प्रयत्न करणाऱ्या मातांना, नक्कीच इथेच अडचण येते मार्चचा मध्य गेला आहे, तुमचा वजन कमी करण...

📝
Technology

AI ब्राउझर 24 तास स्थिर चालवण्याची मार्गदर्शिका

AI ब्राउझर 24 तास स्थिर चालवण्याची मार्गदर्शिका या ट्यूटोरियलमध्ये स्थिर, दीर्घकालीन AI ब्राउझर वातावरण कसे तयार करावे ह...