GLM-5:ਜਦੋਂ ਵੱਡੇ ਮਾਡਲ 'ਆਪਣੇ ਕੋਡ ਲਿਖਣ' ਸਿੱਖਦੇ ਹਨ, Vibe Coding ਤੋਂ Agentic Engineering ਤੱਕ ਦਾ ਕਦਮ
GLM-5:ਜਦੋਂ ਵੱਡੇ ਮਾਡਲ 'ਆਪਣੇ ਕੋਡ ਲਿਖਣ' ਸਿੱਖਦੇ ਹਨ, Vibe Coding ਤੋਂ Agentic Engineering ਤੱਕ ਦਾ ਕਦਮ
❝
🎯 ਇੱਕ ਵਾਕ ਵਿੱਚ ਸਾਰ:智谱AI ਨੇ 清华大学 ਨਾਲ ਮਿਲ ਕੇ 744B ਪੈਰਾਮੀਟਰਾਂ ਵਾਲਾ GLM-5 ਮਾਡਲ ਲਾਂਚ ਕੀਤਾ ਹੈ, ਜੋ DeepSeek Sparse Attention(DSA)ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਧਿਆਨ ਦੀ ਗਣਨਾ ਦੀ ਮਾਤਰਾ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ, ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਸਿੰਕ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ(Async RL)ਲੰਬੇ ਕੰਮਾਂ ਦੀ ਟ੍ਰੇਨਿੰਗ ਦੀ ਕੁਸ਼ਲਤਾ ਨੂੰ ਸੁਧਾਰਦਾ ਹੈ, ਅਤੇ ਬਹੁ-ਪੜਾਅ ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ ਨਾਲ, ਵੱਡੇ ਮਾਡਲ ਨੂੰ 'ਵਾਇਬ ਕੋਡਿੰਗ'(Vibe Coding)ਤੋਂ 'ਸਮਰਥ ਇੰਜੀਨੀਅਰ'(Agentic Engineering)ਤੱਕ ਵਿਕਸਤ ਕਰਦਾ ਹੈ।
ਇਸ ਲੇਖ ਦੀ ਲੋੜ ਕਿਉਂ ਹੈ?
Andrej Karpathy ਨੇ 2025 ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ ਇੱਕ ਦਿਲਚਸਪ ਧਾਰਨਾ ਪੇਸ਼ ਕੀਤੀ - Vibe Coding, ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਤੁਸੀਂ ਸਿਰਫ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਵਿੱਚ ਜ਼ਰੂਰਤ ਦਾ ਵਰਣਨ ਕਰੋ, 'ਅਨੁਭਵ ਦੇ ਆਧਾਰ' 'AI ਨੂੰ ਕੋਡ ਲਿਖਣ' ਦਿਓ। ਇਹ ਵਾਸਤਵ ਵਿੱਚ ਮੌਜੂਦਾ AI ਪ੍ਰੋਗ੍ਰਾਮਿੰਗ ਦਾ ਮੁੱਖ ਅਨੁਭਵ ਹੈ: ਤੁਸੀਂ ਇੱਕ ਵਾਕ ਬੋਲਦੇ ਹੋ, ਮਾਡਲ ਤੁਹਾਡੇ ਲਈ ਇੱਕ ਕੋਡ ਦਾ ਟੁਕੜਾ ਤਿਆਰ ਕਰਦਾ ਹੈ, ਇਸਦਾ ਪ੍ਰਭਾਵ ਚੰਗਾ ਹੈ ਜਾਂ ਨਹੀਂ, ਇਹ ਸਾਰਾ ਕੁਝ ਕਿਸਮਤ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ।
ਪਰ ਸਮੱਸਿਆ ਆਉਂਦੀ ਹੈ: ਵਾਸਤਵਿਕ ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ 'ਕੋਡ ਲਿਖਣ' ਤੋਂ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ। ਇੱਕ ਸੱਚਾ ਇੰਜੀਨੀਅਰ ਪ੍ਰੋਜੈਕਟ ਦੀ ਢਾਂਚਾ ਨੂੰ ਸਮਝਣ, ਗਲਤੀਆਂ ਨੂੰ ਡਿਬੱਗ ਕਰਨ, ਨਿਰਭਰਤਾ ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰਨ, ਅਤੇ ਮਾਡਿਊਲਾਂ ਦੇ ਪਾਰ ਸਹਿਯੋਗ ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਲੋੜ ਹੈ - ਇਹ ਸਾਰੇ 'ਇੱਕ ਪ੍ਰੰਪਟ ਦੇ ਨਾਲ ਇੱਕ ਕੋਡ ਦਾ ਟੁਕੜਾ' ਕਰਨ ਨਾਲ ਨਹੀਂ ਹੋ ਸਕਦੇ। GLM-5 ਦਾ ਇਹ ਲੇਖ ਮਾਡਲ ਨੂੰ 'ਤੁਹਾਡੇ ਲਈ ਕੋਡ ਲਿਖਣ ਵਾਲੇ ਸਹਾਇਕ' ਤੋਂ 'ਪੂਰੇ ਪ੍ਰੋਜੈਕਟ ਨੂੰ ਸੁਤੰਤਰਤਾਪੂਰਕ ਤੌਰ 'ਤੇ ਸੰਭਾਲਣ ਵਾਲੇ ਇੰਜੀਨੀਅਰ' ਵਿੱਚ ਬਦਲਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ।
ਇਹ ਕੋਈ ਛੋਟਾ ਲਕਸ਼ ਨਹੀਂ ਹੈ। ਇਸਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ, 智谱 ਟੀਮ ਨੇ ਮਾਡਲ ਦੀ ਢਾਂਚਾ, ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ, ਅਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਅਲਗੋਰਿਦਮਾਂ 'ਤੇ ਬਹੁਤ ਸਾਰੀਆਂ ਨਵੀਨਤਾਵਾਂ ਕੀਤੀਆਂ ਹਨ। ਇਹ ਵਿਸ਼ਲੇਸ਼ਣ ਤੁਹਾਨੂੰ ਇਨ੍ਹਾਂ ਤਕਨੀਕੀ ਵਿਸਥਾਰਾਂ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰੇਗਾ।
ਮੁੱਖ ਯੋਗਦਾਨ: ਤਿੰਨ ਬੋਰਾਂ
ਵਿਸਥਾਰ ਵਿੱਚ ਜਾਣ ਤੋਂ ਪਹਿਲਾਂ, GLM-5 ਦੇ ਤਿੰਨ ਮੁੱਖ ਯੋਗਦਾਨਾਂ ਨੂੰ ਸਾਫ਼ ਕਰ ਲਓ:
ਯੋਗਦਾਨ ਸਮੱਸਿਆ ਦਾ ਹੱਲ ਕਰਨ ਦਾ ਮੁੱਖ ਵਿਚਾਰDSA ਸਪਾਰਸ ਧਿਆਨ128K ਲੰਬੇ ਸੰਦਰਭ ਦੀ ਗਣਨਾ ਦੀ ਖਰਚ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ ਮਹੱਤਵਪੂਰਕ ਟੋਕਨ ਦੀ ਗਤੀਸ਼ੀਲ ਚੋਣ, ਅਸੰਬੰਧਿਤ ਨੂੰ ਛੱਡਣਾ, 1.5-2 ਗੁਣਾ ਗਣਨਾ ਦੀ ਬਚਤਅਸਿੰਕ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਫਰੇਮਵਰਕਲੰਬੇ ਕੰਮਾਂ ਦੀ RL ਟ੍ਰੇਨਿੰਗ ਵਿੱਚ GPU ਬਹੁਤ ਸਾਰਾ ਖਾਲੀ ਹੈ ਜਨਰੇਟ ਅਤੇ ਟ੍ਰੇਨਿੰਗ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਲੱਗ ਕਰਨਾ, ਪਾਈਪਲਾਈਨ ਦੇ ਰੂਪ ਵਿੱਚ ਸਮਾਂਤਰਬਹੁ-ਪੜਾਅ ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆਸੂਚਨਾ, ਕੋਡਿੰਗ, ਸਮਰਥਤਾ ਆਦਿ ਬਹੁਤ ਸਾਰੀਆਂ ਯੋਗਤਾਵਾਂ ਨੂੰ ਸੰਭਾਲਣਾSFT→ਸੂਚਨਾ RL→ਸਮਰਥ RL→ਜਨਰਲ RL, ਯੋਗਤਾਵਾਂ ਨੂੰ ਕ੍ਰਮਵਾਰ ਵਧਾਉਣਾ
ਮਾਡਲ ਦੀ ਢਾਂਚਾ: MoE ਦੇ ਹੱਡੀ 'ਤੇ 'ਘਟਾਉਣਾ'
ਬੁਨਿਆਦੀ ਸੰਰਚਨਾ
GLM-5 ਨੇ Mixture-of-Experts(MoE) ਢਾਂਚਾ ਅਪਣਾਇਆ ਹੈ, ਕੁੱਲ ਪੈਰਾਮੀਟਰ 744B ਹੈ, ਪਰ ਹਰ ਵਾਰੀ ਸੂਚਨਾ ਦੇ ਸਮੇਂ ਸਿਰਫ 40B ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਸਰਗਰਮ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਇਹ 'ਵੱਡਾ ਅਤੇ ਸਪਾਰਸ' ਡਿਜ਼ਾਈਨ ਉਦਯੋਗ ਦੀ ਸਹਿਮਤੀ ਬਣ ਗਿਆ ਹੈ - DeepSeek-V3/R1, Qwen3 ਨੇ ਵੀ ਇਸੇ ਰਸਤੇ 'ਤੇ ਚੱਲਿਆ ਹੈ।
DSA ਅਸਲ ਵਿੱਚ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ?
DSA ਦਾ ਮੁੱਖ ਵਿਚਾਰ ਇੱਕ ਉਦਾਹਰਨ ਨਾਲ ਸਮਝਿਆ ਜਾ ਸਕਦਾ ਹੈ: ਸੋਚੋ ਤੁਸੀਂ ਪੁਸਤਕਾਲੇ ਵਿੱਚ ਸਮੱਗਰੀ ਲੱਭ ਰਹੇ ਹੋ। ਮਿਆਰੀ ਧਿਆਨ ਇਸ ਤਰ੍ਹਾਂ ਹੈ ਕਿ ਤੁਸੀਂ ਪੁਸਤਕਾਲੇ ਦੀ ਹਰ ਕਿਤਾਬ ਨੂੰ ਇੱਕ ਵਾਰੀ ਫਿਰਦੇ ਹੋ, ਫਿਰ ਇਹ ਫੈਸਲਾ ਕਰਦੇ ਹੋ ਕਿ ਕਿਹੜੀਆਂ ਲਾਭਦਾਇਕ ਹਨ। ਅਤੇ DSA ਇੱਕ ਅਨੁਭਵੀ ਪੁਸਤਕਾਲੇ ਦੇ ਪ੍ਰਬੰਧਕ ਵਾਂਗ ਹੈ - ਇਹ ਪਹਿਲਾਂ ਲਾਈਟਨਿੰਗ ਇੰਡੈਕਸਰ(Lightning Index) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕਿਤਾਬਾਂ ਦੇ ਸਿਰਲੇਖਾਂ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਸਕੈਨ ਕਰਦਾ ਹੈ, ਕੁਝ ਸੰਭਾਵਿਤ ਸਬੰਧਿਤ ਖੇਤਰਾਂ ਨੂੰ ਲੌਕ ਕਰਦਾ ਹੈ, ਫਿਰ ਸਿਰਫ ਇਨ੍ਹਾਂ ਖੇਤਰਾਂ ਵਿੱਚੋਂ ਵਿਸ਼ੇਸ਼ ਪੈਰਾਗ੍ਰਾਫਾਂ ਨੂੰ ਪੜ੍ਹਦਾ ਹੈ।
ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ: ਚਾਰ ਪੜਾਅ 'ਤੇ "ਦੁਸ਼ਮਨ ਨੂੰ ਮਾਰਨਾ"
GLM-5 ਦੀ ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ ਇਸ ਲੇਖ ਦਾ ਮੁੱਖ ਹਿੱਸਾ ਹੈ, ਜੋ ਪੂਰਵ-ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਦੋ ਵੱਡੇ ਪੜਾਅ ਵਿੱਚ ਵੰਡਿਆ ਗਿਆ ਹੈ।
ਪੂਰਵ-ਟ੍ਰੇਨਿੰਗ ਪੜਾਅ
- ਡਾਟਾ ਦਾ ਪੈਮਾਨਾ: 27T ਟੋਕਨ, ਡਾਟਾ ਦੇ ਮਿਸ਼ਰਣ ਦਾ ਅਨੁਪਾਤ ਵੈਬ ਪੰਨਿਆਂ, ਕੋਡ, ਅਕਾਦਮਿਕ ਪੇਪਰ, ਕਿਤਾਬਾਂ ਆਦਿ ਸ਼ਾਮਲ ਹੈ
- ਸੰਦਰਭ ਦਾ ਵਿਸਥਾਰ: ਮੱਧਕਾਲੀ ਟ੍ਰੇਨਿੰਗ ਰਾਹੀਂ ਸੰਦਰਭ ਨੂੰ 4K ਤੋਂ 200K ਤੱਕ ਧੀਰੇ-ਧੀਰੇ ਵਧਾਇਆ ਗਿਆ, RoPE ਫ੍ਰੀਕਵੈਂਸੀ ਅਨੁਕੂਲਤਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ
- ਐਨੀਲਿੰਗ ਪੜਾਅ: ਪੂਰਵ-ਟ੍ਰੇਨਿੰਗ ਦੇ ਅੰਤ ਵਿੱਚ ਉੱਚ ਗੁਣਵੱਤਾ ਦੇ ਡਾਟਾ ਨਾਲ 'ਸੁਧਾਰ' ਕੀਤਾ ਗਿਆ
ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਚਾਰ ਪਦਾਂ
ਇਹ GLM-5 ਦਾ ਸਭ ਤੋਂ ਵਿਲੱਖਣ ਹਿੱਸਾ ਹੈ। GLM-5 ਨੇ ਚਾਰ ਚੱਕਰ ਕੀਤੇ:
- ਨਿਗਰਾਨੀ ਮਾਈਨਰਿੰਗ(SFT) ਉੱਚ ਗੁਣਵੱਤਾ ਦੇ ਹੁਕਮਾਂ ਦੇ ਡਾਟਾ ਨਾਲ ਮਾਈਨਰਿੰਗ ਕੀਤੀ।
- ਸੂਚਨਾ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ(Reasoning RL) ਗਣਿਤ ਅਤੇ ਕੋਡ ਸੂਚਨਾ ਦੇ ਕੰਮਾਂ 'ਤੇ RL ਟ੍ਰੇਨਿੰਗ ਕੀਤੀ।
- ਸਮਰਥ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ(Agentic RL), ਇਹ ਮੁੱਖ ਨਵੀਨਤਾ ਹੈ।
- ਜਨਰਲ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ(General RL), ਵਿਆਪਕ ਜਨਰਲ ਕੰਮਾਂ 'ਤੇ RL ਕੀਤਾ।
ਅਸਿੰਕ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ: GPU ਨੂੰ "ਮੱਧ ਵਿੱਚ" ਨਹੀਂ ਛੱਡਣਾ
ਪ੍ਰੰਪਰਾਗਤ RL ਟ੍ਰੇਨਿੰਗ ਸਿੰਕ੍ਰੋਨਸ ਹੁੰਦੀ ਹੈ: ਇੱਕ ਡਾਟਾ ਦਾ ਸਮੂਹ ਇਕੱਠਾ ਕਰੋ → ਇਨਾਮ ਦੀ ਗਣਨਾ ਕਰੋ → ਮਾਡਲ ਨੂੰ ਅੱਪਡੇਟ ਕਰੋ → ਫਿਰ ਇਕੱਠਾ ਕਰੋ। ਇਹ ਛੋਟੇ ਸਮੇਂ ਦੇ ਕੰਮਾਂ ਵਿੱਚ ਕੋਈ ਸਮੱਸਿਆ ਨਹੀਂ ਹੈ, ਪਰ ਸਮਰਥਤਾ ਦੇ ਕੰਮਾਂ ਨੂੰ ਅਕਸਰ ਦਹਾਂ ਪਦਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
ਪ੍ਰਯੋਗਾਤਮਕ ਨਤੀਜੇ ਦੀ ਗਹਿਰਾਈ ਨਾਲ ਵਿਸ਼ਲੇਸ਼ਣ
ਮੁੱਖ ਬੈਂਚਮਾਰਕ ਤੁਲਨਾ
ਬੈਂਚਮਾਰਕ GLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9
ਸਾਰ
GLM-5 ਦਾ ਇਹ ਲੇਖ ਜਾਣਕਾਰੀ ਨਾਲ ਭਰਪੂਰ ਹੈ। ਵਿਸ਼ੇਸ਼ ਅੰਕੜਿਆਂ ਨੂੰ ਛੱਡ ਕੇ, ਇਸਦਾ ਮੁੱਖ ਸੁਨੇਹਾ ਹੈ: ਵੱਡੇ ਮਾਡਲ ਦਾ ਅਗਲਾ ਯੁੱਧ ਖੇਤਰ 'ਕੰਮ ਕਰਨ' ਵਿੱਚ ਹੈ ਨਾ ਕਿ ਸਿਰਫ 'ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ' ਵਿੱਚ।
ਮੁਕਾਬਲੇ ਦੇ ਪੱਖ ਤੋਂ, GLM-5 ਨੇ ਚੀਨ ਦੇ AI ਟੀਮ ਦੀ ਵੱਡੇ ਮਾਡਲਾਂ ਦੇ ਅਗੇ ਆਧੁਨਿਕ ਖੋਜ 'ਤੇ ਮੁਕਾਬਲੇ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਸਾਬਤ ਕੀਤਾ।
ਲੇਖ ਦੀ ਜਾਣਕਾਰੀ
- ਸਿਰਲੇਖ: GLM-5: from Vibe Coding to Agentic Engineering
- ਸੰਸਥਾ: 智谱AI & 清华大学
- ਲਿੰਕ:https://arxiv.org/abs/2602.15763

