GLM-5: பெரிய மாதிரிகள் "சுயமாகக் குறியீடு எழுத" கற்றால், Vibe Coding-இல் இருந்து Agentic Engineering-க்கு மாறுதல்
GLM-5: பெரிய மாதிரிகள் "சுயமாகக் குறியீடு எழுத" கற்றால், Vibe Coding-இல் இருந்து Agentic Engineering-க்கு மாறுதல்
❝
🎯 ஒரு வாக்கியத்தில் சுருக்கம்: ஷிஜிபு AI மற்றும் சிங்குவா பல்கலைக்கழகம் இணைந்து 744B அளவீட்டுள்ள GLM-5 மாதிரியை வெளியிட்டுள்ளது, DeepSeek Sparse Attention (DSA) மூலம் கவனிப்பு கணக்கீட்டு அளவை சுருக்கி, முழு அசிங்கமான வலுப்படுத்தல் கற்றல் (Async RL) மூலம் நீண்ட பணிகள் பயிற்சியின் திறனை தீர்த்து, மற்றும் பல கட்டங்களில் பின்னணி பயிற்சி செயல்முறை மூலம், பெரிய மாதிரிகள் "வானவில் குறியீடு" (Vibe Coding) இருந்து "சுயமாக செயல்படும் பொறியாளர்" (Agentic Engineering) ஆக மாறுகின்றன.
ஏன் இந்த ஆவணத்தை தேவைப்படுகிறது?
Andrej Karpathy 2025 ஆம் ஆண்டின் தொடக்கத்தில் ஒரு சுவாரஸ்யமான கருத்தை முன்வைத்தார் - Vibe Coding, அதாவது நீங்கள் இயற்கை மொழியில் தேவைகளை விவரிக்க வேண்டும், "உணர்வால்" AI-க்கு குறியீடு எழுதச் சொல்ல வேண்டும். இது தற்போதைய AI குறியீட்டு அனுபவத்தின் முக்கியமான அனுபவமாகும்: நீங்கள் ஒரு வாக்கியம் கூறுகிறீர்கள், மாதிரி உங்களுக்கு ஒரு குறியீட்டை உருவாக்குகிறது, அது எவ்வளவு நல்லது என்பது முழுக்க அதிர்ஷ்டத்தைப் பொறுத்தது.
ஆனால் சிக்கல் வந்தது: உண்மையான மென்பொருள் பொறியியல் "குறியீடு எழுத" என்ற அளவுக்கு எளிதல்ல. ஒரு உண்மையான பொறியாளர் திட்டத்தின் கட்டமைப்பை புரிந்து கொள்ள வேண்டும், பிழைகளை சரிசெய்ய வேண்டும், சார்ந்தவற்றை நிர்வகிக்க வேண்டும், முறைமைகளுக்கு இடையிலான ஒத்துழைப்பை கையாள வேண்டும் - இவை அனைத்தும் "ஒரு ப்ராம்ட் மூலம் ஒரு குறியீட்டை உருவாக்க" என்பதால் முடிவதில்லை. GLM-5 இன் இந்த ஆவணம், மாதிரியை "உங்களுக்கு குறியீடு எழுதும் உதவியாளர்" ஆக இருந்து "முழு திட்டத்தை சுயமாக முடிக்கக்கூடிய பொறியாளர்" ஆக மாற்ற வேண்டும்.
இது ஒரு சிறிய இலக்கு அல்ல. இதனை அடைய, ஷிஜிபு குழு மாதிரி கட்டமைப்பு, பயிற்சி செயல்முறை, வலுப்படுத்தல் கற்றல் ஆல்காரிதங்களில் பல புதுமைகளை செய்துள்ளது. இந்த விளக்கம் உங்களை இந்த தொழில்நுட்ப விவரங்களை உடைக்கச் செல்லும்.
மைய பங்களிப்பு: மூன்று முக்கிய அம்சங்கள்
விவரங்களில் ஆழமாக செல்லும் முன், GLM-5 இன் மூன்று மைய பங்களிப்புகளை தெளிவுபடுத்துங்கள்:
பங்களிப்பு தீர்க்கும் சிக்கல் மைய எண்ணம் DSA சுருக்கமான கவனம் 128K நீளமான சூழ்நிலையின் கணக்கீட்டு செலவுகள் வெகுவாக அதிகரிக்கிறது முக்கியமான token-ஐ மின்சாரமாகத் தேர்ந்தெடுத்து, தொடர்பில்லாதவற்றை தவிர்க்கிறது, 1.5-2 மடங்கு கணக்கீட்டு சக்தியைச் சேமிக்கிறது அசிங்கமான வலுப்படுத்தல் கற்றல் கட்டமைப்பு நீண்ட பணிகள் RL பயிற்சியில் GPU பெரும்பாலும் காலியாக இருக்கிறது உருவாக்கம் மற்றும் பயிற்சி முற்றிலும் பிரிக்கப்பட்டது, பைப்லைன் மாதிரியான இணைப்பு பல கட்டங்களில் பின்னணி பயிற்சி செயல்முறை கருத்து, குறியீடு, சுயமாக செயல்படும் மற்றும் பிற பல திறன்களை ஒரே நேரத்தில் கவனிக்க முடியாது SFT→推理RL→智能体RL→通用RL, படிப்படியாக திறன்களை சேர்க்கிறது
மாதிரி கட்டமைப்பு: MoE இன் எலும்பில் "குறைப்பு" செய்யும்
அடிப்படை அமைப்பு
GLM-5 Mixture-of-Experts (MoE) கட்டமைப்பைப் பயன்படுத்துகிறது, மொத்த அளவீடு 744B, ஆனால் ஒவ்வொரு முறையும்推理-ல் சுமார் 40B அளவீட்டுகளை மட்டுமே செயல்படுத்துகிறது. இந்த "பெரிய மற்றும் சுருக்கமான" வடிவமைப்பு தொழில்நுட்பத்தில் பொதுவான ஒப்பந்தமாக மாறியுள்ளது - DeepSeek-V3/R1, Qwen3 போன்றவை இதே பாதையில் சென்றுள்ளன.
DSA எப்படி வேலை செய்கிறது?
DSA இன் மைய எண்ணத்தை ஒரு உவமை மூலம் புரிந்து கொள்ளலாம்: நீங்கள் நூலகத்தில் தகவல்களை தேடுகிறீர்கள் என்று கற்பனை செய்யுங்கள். மாதிரியான கவனம் என்பது முழு நூலகத்தின் ஒவ்வொரு புத்தகத்தையும் திருப்பி பார்த்து, எவை பயனுள்ளதாக இருக்கின்றன என்பதை தீர்மானிக்கிறதுபோலவே. ஆனால் DSA என்பது ஒரு அனுபவமிக்க நூலகர் போலவே - இது முதலில் Lightning Index மூலம் புத்தகக் களஞ்சியத்தின் தலைப்புகளை விரைவாக ஸ்கேன் செய்து, சில தொடர்புடைய பகுதிகளை அடையாளம் காண்கிறது, பின்னர் அந்த பகுதிகளில் உள்ள குறிப்பிட்ட பத்திகளை மட்டுமே கவனமாகப் படிக்கிறது.
பயிற்சி செயல்முறை: நான்கு கட்டங்களாக "பொறியாளர்கள் மேம்படுத்துதல்"
GLM-5 இன் பயிற்சி செயல்முறை இந்த ஆவணத்தின் முக்கிய அம்சமாகும், இது முன்னணி பயிற்சி மற்றும் பின்னணி பயிற்சி என்ற இரண்டு பெரிய கட்டங்களில் பிரிக்கப்பட்டுள்ளது.
முன்னணி பயிற்சி கட்டம்
- தரவுகோல் அளவு: 27T token, தரவின் கலவைக் குறியீடு இணையதளம், குறியீடு, கல்வி ஆவணங்கள், புத்தகங்கள் போன்றவற்றை உள்ளடக்கியது
- சூழ்நிலை விரிவாக்கம்: மத்திய பயிற்சியின் மூலம் சூழ்நிலையை 4K இருந்து 200K க்கு படிப்படியாக விரிவாக்குகிறது, RoPE அடிப்படையில் அடிக்கடி சீரமைக்கிறது
- அழுத்தக் கட்டம்: முன்னணி பயிற்சியின் இறுதியில் உயர் தரமான தரவுகளை "சீரமைப்பு" செய்ய பயன்படுத்துகிறது
பின்னணி பயிற்சியின் நான்கு கட்டங்கள்
இது GLM-5 இன் மிகவும் தனித்துவமான பகுதி. GLM-5 நான்கு சுற்றுகள் செய்துள்ளது:
- மேற்பார்வை மையமாக்கல் (SFT) உயர் தரமான கட்டளை தரவுகளைப் பயன்படுத்தி மையமாக்குகிறது.
- 推理 வலுப்படுத்தல் கற்றல் (Reasoning RL) கணித மற்றும் குறியீட்டு推理 பணிகளில் RL பயிற்சியைச் செய்கிறது.
- சுயமாக செயல்படும் வலுப்படுத்தல் கற்றல் (Agentic RL), இது முக்கிய புதுமை.
- 通用 வலுப்படுத்தல் கற்றல் (General RL), மேலும் பரந்த பொதுவான பணிகளில் RL செய்கிறது.
அசிங்கமான வலுப்படுத்தல் கற்றல்: GPU-ஐ "செயலிழக்க" செய்யாமல்
பாரம்பரிய RL பயிற்சி சமயமாக உள்ளது: ஒரு தொகுப்பான தரவுகளை சேகரிக்கிறது → பரிசுகளை கணக்கீடு செய்கிறது → மாதிரியை புதுப்பிக்கிறது → மீண்டும் சேகரிக்கிறது. இது பணியின் நேரம் குறுகிய நிலையில் சிக்கலில்லை, ஆனால் சுயமாக செயல்படும் பணிகள் பெரும்பாலும் பல படிகள் தொடர்புகளை தேவைப்படுகிறது.
பரிசோதனை முடிவுகள் ஆழமான விளக்கம்
முக்கிய அடிப்படைக் குறியீடு ஒப்பீடு
அடிப்படைக் குறியீடு GLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9
சுருக்கம்
GLM-5 இன் இந்த ஆவணம் தகவல்களின் அளவைக் கொண்டுள்ளது. குறிப்பிட்ட எண்களைப் புறக்கணித்தால், இது வழங்கும் மைய தகவல்: பெரிய மாதிரியின் அடுத்த போராட்டம் "வேலை" செய்யும் போது மட்டுமே அல்ல, "கேள்விகளுக்கு பதிலளிக்கும்" போது.
போட்டித் தரத்தில், GLM-5 சீன AI குழுவின் பெரிய மாதிரி முன்னணி ஆராய்ச்சியில் போட்டித் திறனை நிரூபித்துள்ளது.
ஆவண தகவல்
- தலைப்பு: GLM-5: Vibe Coding-இல் இருந்து Agentic Engineering-க்கு
- நிறுவனம்: ஷிஜிபு AI & சிங்குவா பல்கலைக்கழகம்
- இணைப்பு: https://arxiv.org/abs/2602.15763

