GLM-5:ದೊಡ್ಡ ಮಾದರಿಗಳು "ಸ್ವಂತ ಕೋಡ್ ಬರೆಯುವುದು" ಕಲಿಯುವಾಗ, Vibe Coding ನಿಂದ Agentic Engineering ಗೆ ಹಾರಾಟ
GLM-5:ದೊಡ್ಡ ಮಾದರಿಗಳು "ಸ್ವಂತ ಕೋಡ್ ಬರೆಯುವುದು" ಕಲಿಯುವಾಗ, Vibe Coding ನಿಂದ Agentic Engineering ಗೆ ಹಾರಾಟ
❝
🎯 ಒಂದು ವಾಕ್ಯದಲ್ಲಿ ಸಾರಾಂಶ:ಜ್ಞಾಪು AI ಕ್ವಿಂಗ್ ಹುವಾ ವಿಶ್ವವಿದ್ಯಾಲಯದೊಂದಿಗೆ 744B ಪ್ಯಾರಾಮೀಟರ್ಗಳ GLM-5 ಮಾದರಿಯನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ, DeepSeek Sparse Attention (DSA) ಮೂಲಕ ಗಮನ ಗಣನೆಯ ಪ್ರಮಾಣವನ್ನು ಸಂಕೋಚನಗೊಳಿಸುವುದು, ಸಂಪೂರ್ಣ ಅಸಿಂಕ್ರೋನಸ್ ಶಕ್ತಿವರ್ಧಕ ಕಲಿಕೆ (Async RL) ದೀರ್ಘ ಕಾರ್ಯಗಳ ತರಬೇತಿ ಪರಿಣಾಮಕಾರಿತ್ವವನ್ನು ಪರಿಹರಿಸುವುದು, ಮತ್ತು ಬಹು ಹಂತದ ನಂತರದ ತರಬೇತಿ ಪ್ರಕ್ರಿಯೆ ಮೂಲಕ, ದೊಡ್ಡ ಮಾದರಿಗಳನ್ನು "ಭಾವನಾತ್ಮಕ ಕೋಡಿಂಗ್" (Vibe Coding) ನಿಂದ ಸ್ವಾಯತ್ತವಾಗಿ ವಾಸ್ತವ ಇಂಜಿನಿಯರಿಂಗ್ ಯೋಜನೆಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸುವ "ಬುದ್ಧಿವಂತ ಇಂಜಿನಿಯರ್" (Agentic Engineering) ಗೆ ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತದೆ.
ಈ ಲೇಖನಕ್ಕೆ ಏಕೆ ಅಗತ್ಯವಿದೆ?
Andrej Karpathy 2025ರ ಆರಂಭದಲ್ಲಿ ಒಂದು ಆಸಕ್ತಿಕರ ಪರಿಕಲ್ಪನೆಯುನ್ನು ಪ್ರಸ್ತಾಪಿಸಿದರು——Vibe Coding, ಅಂದರೆ ನೀವು ಕೇವಲ ನೈಸರ್ಗಿಕ ಭಾಷೆಯಲ್ಲಿ ಅಗತ್ಯವನ್ನು ವಿವರಿಸುತ್ತೀರಿ, "ಭಾವನೆ" ಮೂಲಕ AI ಗೆ ಕೋಡ್ ಬರೆಯಲು ಹೇಳಬಹುದು. ಇದು ವಾಸ್ತವವಾಗಿ ಪ್ರಸ್ತುತ AI ಪ್ರೋಗ್ರಾಮಿಂಗ್ನ ಮುಖ್ಯ ಅನುಭವವಾಗಿದೆ: ನೀವು ಒಂದು ವಾಕ್ಯವನ್ನು ಹೇಳುತ್ತೀರಿ, ಮಾದರಿ ನಿಮಗೆ ಕೋಡ್ನ ಒಂದು ಭಾಗವನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ, ಪರಿಣಾಮವು ಉತ್ತಮವಾಗಿದೆಯೇ ಇಲ್ಲವೇ ಎಂಬುದು ಸಂಪೂರ್ಣವಾಗಿ ಭಾಗ್ಯವನ್ನು ಆಧರಿಸುತ್ತದೆ.
ಆದರೆ ಸಮಸ್ಯೆ ಏನೆಂದರೆ: ವಾಸ್ತವ ಸಾಫ್ಟ್ವೇರ್ ಇಂಜಿನಿಯರಿಂಗ್ "ಕೋಡ್ ಬರೆಯುವುದು" ಹೀಗಷ್ಟೇ ಸುಲಭವಲ್ಲ. ಒಬ್ಬ ವಾಸ್ತವ ಇಂಜಿನಿಯರ್ ಯೋಜನೆಯ ವಾಸ್ತುಶಿಲ್ಪವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬೇಕು, ದೋಷಗಳನ್ನು ಡಿಬಗ್ ಮಾಡಬೇಕು, ಅವಲಂಬನೆಗಳನ್ನು ನಿರ್ವಹಿಸಬೇಕು, ಕ್ರಾಸ್-ಮಾಡ್ಯೂಲ್ ಸಹಕಾರವನ್ನು ನಿರ್ವಹಿಸಬೇಕು——ಇವುಗಳಲ್ಲಿ ಯಾವುದೂ "ಒಂದು ಪ್ರಾಂಪ್ಟ್ನಲ್ಲಿ ಒಂದು ಕೋಡ್ ಭಾಗವನ್ನು" ಮಾಡಲು ಸಾಧ್ಯವಿಲ್ಲ. GLM-5 ಈ ಲೇಖನವು ಮಾಡಬೇಕಾದ ಕೆಲಸವೆಂದರೆ ಮಾದರಿಯನ್ನು "ನಿಮಗೆ ಕೋಡ್ ಬರೆಯಲು ಸಹಾಯ ಮಾಡುವ ಸಹಾಯಕ" ನಿಂದ "ಪೂರ್ಣ ಯೋಜನೆಯನ್ನು ಸ್ವಾಯತ್ತವಾಗಿ ನಿರ್ವಹಿಸುವ ಇಂಜಿನಿಯರ್" ಗೆ ಪರಿವರ್ತಿಸಲು.
ಇದು ಒಂದು ಸಣ್ಣ ಗುರಿಯಲ್ಲ. ಇದನ್ನು ಸಾಧಿಸಲು, ಜ್ಞಾಪು ತಂಡವು ಮಾದರಿ ವಾಸ್ತುಶಿಲ್ಪ, ತರಬೇತಿ ಪ್ರಕ್ರಿಯೆ, ಶಕ್ತಿವರ್ಧಕ ಕಲಿಕೆ ಆಲ್ಗಾರಿದಮ್ಗಳಲ್ಲಿ ಬಹಳಷ್ಟು ನಾವೀನ್ಯತೆಗಳನ್ನು ಮಾಡಿದೆ. ಈ ವ್ಯಾಖ್ಯಾನವು ನಿಮಗೆ ಈ ತಂತ್ರಜ್ಞಾನ ವಿವರಗಳನ್ನು ವಿಭಜಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.
ಕೇಂದ್ರ ಕೊಡುಗೆ: ಮೂರು ಪ್ರಮುಖ ಅಂಶಗಳು
ವಿವರಗಳಿಗೆ ಒಳಗೊಳ್ಳುವ ಮೊದಲು, GLM-5 ನ ಮೂರು ಕೇಂದ್ರ ಕೊಡುಗೆಗಳನ್ನು ಸ್ಪಷ್ಟಪಡಿಸೋಣ:
ಕೊಡುಗೆ ಪರಿಹರಿಸಿದ ಸಮಸ್ಯೆ ಕೇಂದ್ರ ಚಿಂತನೆ DSA ಸ್ಕಾರ್ಸ್ ಗಮನ 128K ದೀರ್ಘ上下文ದ ಗಣನೆಯ ವೆಚ್ಚವನ್ನು ಸ್ಫೋಟಿಸುವುದು, ಪ್ರಮುಖ ಟೋಕನ್ಗಳನ್ನು ಡೈನಾಮಿಕ್ ಆಯ್ಕೆ ಮಾಡುವುದು, ಸಂಬಂಧವಿಲ್ಲದವುಗಳನ್ನು ಹಾರಿಸುವುದು, 1.5-2 ಪಟ್ಟು ಶಕ್ತಿಯನ್ನು ಉಳಿಸುವುದು ಅಸಿಂಕ್ರೋನಸ್ ಶಕ್ತಿವರ್ಧಕ ಕಲಿಕೆ ಚೌಕಟ್ಟಿನಲ್ಲಿ ದೀರ್ಘ ಕಾರ್ಯ RL ತರಬೇತಿಯಲ್ಲಿ GPU ಬಹಳಷ್ಟು ಖಾಲಿ, ಉತ್ಪಾದನೆ ಮತ್ತು ತರಬೇತಿಯನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಡಿಕಪಲ್ ಮಾಡುವುದು, ಪೈಪ್ಲೈನ್ ಶ್ರೇಣೀಬದ್ಧ ಬಹು ಹಂತದ ನಂತರದ ತರಬೇತಿ ಪ್ರಕ್ರಿಯೆ ನಿರ್ಣಯ, ಕೋಡಿಂಗ್, ಬುದ್ಧಿವಂತಿಕೆ ಇತ್ಯಾದಿ ಬಹು ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಸಮಾನಾಂತರವಾಗಿ ನಿರ್ವಹಿಸಲು ಕಷ್ಟವಾಗುತ್ತದೆ SFT→ ನಿರ್ಣಯ RL→ ಬುದ್ಧಿವಂತ RL→ ಸಾಮಾನ್ಯ RL, ಹಂತ ಹಂತವಾಗಿ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಸೇರಿಸುವುದು
ಮಾದರಿ ವಾಸ್ತುಶಿಲ್ಪ: MoE ನ ಹಡಗಿನ ಮೇಲೆ "ಕಡಿತ" ಮಾಡುವುದು
ಮೂಲ ಕಾನ್ಫಿಗರೇಶನ್
GLM-5 Mixture-of-Experts (MoE) ವಾಸ್ತುಶಿಲ್ಪವನ್ನು ಬಳಸುತ್ತದೆ, ಒಟ್ಟು ಪ್ಯಾರಾಮೀಟರ್ಗಳು 744B, ಆದರೆ ಪ್ರತಿ ಬಾರಿ ನಿರ್ಣಯದಲ್ಲಿ ಸುಮಾರು 40B ಪ್ಯಾರಾಮೀಟರ್ಗಳನ್ನು ಮಾತ್ರ ಸಕ್ರಿಯಗೊಳಿಸುತ್ತದೆ. ಈ "ದೊಡ್ಡ ಮತ್ತು ಸ್ಕಾರ್ಸ್" ವಿನ್ಯಾಸವು ಉದ್ಯಮದ ಒಪ್ಪಿಗೆಯಾಗಿದೆ——DeepSeek-V3/R1, Qwen3 ಇವುಗಳಂತಹ ಮಾರ್ಗವನ್ನು ಅನುಸರಿಸುತ್ತವೆ.
DSA ನಿಜವಾಗಿಯೂ ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ?
DSA ಯ ಕೇಂದ್ರ ಚಿಂತನೆಯು ಒಂದು ಉದಾಹರಣೆಯ ಮೂಲಕ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬಹುದು: ನೀವು ಗ್ರಂಥಾಲಯದಲ್ಲಿ ಮಾಹಿತಿಯನ್ನು ಹುಡುಕುತ್ತಿದ್ದೀರಿ ಎಂದು ಕಲ್ಪಿಸೋಣ. ಮಾನದಂಡದ ಗಮನ ಸಂಪೂರ್ಣ ಗ್ರಂಥಾಲಯದ ಪ್ರತಿಯೊಂದು ಪುಸ್ತಕವನ್ನು ತಿರುಗಿಸುವಂತೆ, ನಂತರ ಯಾವವು ಉಪಯುಕ್ತವೆಂದು ನಿರ್ಧರಿಸುತ್ತವೆ. ಆದರೆ DSA ಹೆಚ್ಚು ಅನುಭವ ಹೊಂದಿರುವ ಗ್ರಂಥಾಲಯದ ನಿರ್ವಹಕರಂತೆ——ಇದು ಮೊದಲಿಗೆ ಲೈಟ್ನಿಂಗ್ ಇಂಡೆಕ್ಸ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಶೀಘ್ರವಾಗಿ ಶೆಲ್ಫ್ ಶೀರ್ಷಿಕೆಗಳನ್ನು ಸ್ಕ್ಯಾನ್ ಮಾಡುತ್ತದೆ, ಕೆಲವು ಸಂಬಂಧಿತ ಪ್ರದೇಶಗಳನ್ನು ಲಾಕ್ ಮಾಡುತ್ತದೆ, ನಂತರ ಈ ಪ್ರದೇಶಗಳಲ್ಲಿ ನಿರ್ದಿಷ್ಟ ಪ್ಯಾರಾಗ್ರಾಫ್ಗಳನ್ನು ಮಾತ್ರ ಓದುತ್ತದೆ.
ತರಬೇತಿ ಪ್ರಕ್ರಿಯೆ: ನಾಲ್ಕು ಹಂತದ "ಮರೆಯುವುದು"
GLM-5 ನ ತರಬೇತಿ ಪ್ರಕ್ರಿಯೆ ಈ ಲೇಖನದ ಪ್ರಮುಖ ಭಾಗವಾಗಿದೆ, ಪೂರ್ವ ತರಬೇತಿ ಮತ್ತು ನಂತರದ ತರಬೇತಿ ಎಂಬ ಎರಡು ಪ್ರಮುಖ ಹಂತಗಳಲ್ಲಿ ವಿಭಜಿಸಲಾಗಿದೆ.
ಪೂರ್ವ ತರಬೇತಿ ಹಂತ
- ಡೇಟಾ ಪ್ರಮಾಣ: 27T ಟೋಕನ್, ಡೇಟಾ ಮಿಶ್ರಣ ಪ್ರಮಾಣವು ವೆಬ್ಪುಟಗಳು, ಕೋಡ್, ಶ್ರೇಣೀಬದ್ಧ ಪತ್ರಿಕೆಗಳು, ಪುಸ್ತಕಗಳು ಇತ್ಯಾದಿಗಳನ್ನು ಒಳಗೊಂಡಿದೆ
- 上下文 ವಿಸ್ತರಣೆ: ಮಧ್ಯಂತರ ತರಬೇತಿಯಲ್ಲಿ上下文 ಅನ್ನು 4K ನಿಂದ ಹಂತ ಹಂತವಾಗಿ 200K ಗೆ ವಿಸ್ತಾರಗೊಳಿಸುವುದು, RoPE ಆವೃತ್ತಿ ಹೊಂದಿಸುವುದನ್ನು ಬಳಸುವುದು
- ಹೆಚ್ಚಿನ ಹಂತ: ಪೂರ್ವ ತರಬೇತಿಯ ಕೊನೆಯಲ್ಲಿ ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಡೇಟಾವನ್ನು ಬಳಸಿಕೊಂಡು "ಸೂಕ್ಷ್ಮ" ಮಾಡುವುದು
ನಂತರದ ತರಬೇತಿ ನಾಲ್ಕು ಹಂತಗಳು
ಇದು GLM-5 ನ ಅತ್ಯಂತ ವಿಶಿಷ್ಟ ಭಾಗವಾಗಿದೆ. GLM-5 ನಾಲ್ಕು ಹಂತಗಳನ್ನು ನಡೆಸಿತು:
- ನಿರೀಕ್ಷಿತ ಸೂಕ್ಷ್ಮ (SFT) ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಸೂಚನೆ ಡೇಟಾವನ್ನು ಬಳಸಿಕೊಂಡು ಸೂಕ್ಷ್ಮಗೊಳಿಸುವುದು.
- ನಿರ್ಣಯ ಶಕ್ತಿವರ್ಧಕ ಕಲಿಕೆ (Reasoning RL) ಗಣಿತ ಮತ್ತು ಕೋಡ್ ನಿರ್ಣಯ ಕಾರ್ಯಗಳಲ್ಲಿ RL ತರಬೇತಿ ನಡೆಸುವುದು.
- ಬುದ್ಧಿವಂತ ಶಕ್ತಿವರ್ಧಕ ಕಲಿಕೆ (Agentic RL), ಇದು ಪ್ರಮುಖ ನಾವೀನ್ಯತೆ.
- ಸಾಮಾನ್ಯ ಶಕ್ತಿವರ್ಧಕ ಕಲಿಕೆ (General RL), ವ್ಯಾಪಕ ಸಾಮಾನ್ಯ ಕಾರ್ಯಗಳಲ್ಲಿ RL ನಡೆಸುವುದು.
ಅಸಿಂಕ್ರೋನಸ್ ಶಕ್ತಿವರ್ಧಕ ಕಲಿಕೆ: GPU ಅನ್ನು "ಮೂಡಲು" ಬಿಡಿಸುವುದು
ಪಾರಂಪರಿಕ RL ತರಬೇತಿ ಸಿಂಕ್ರೋನಸ್ ಆಗಿದೆ: ಡೇಟಾ ಒಂದು ಗುಂಪನ್ನು ಸಂಗ್ರಹಿಸುವುದು → ಬಹುಮಾನವನ್ನು ಲೆಕ್ಕಹಾಕುವುದು → ಮಾದರಿಯನ್ನು ನವೀಕರಿಸುವುದು → ಪುನಃ ಸಂಗ್ರಹಿಸುವುದು. ಇದು ಕಾರ್ಯದ ಸಮಯ ಕಡಿಮೆ ಇರುವ ಸಂದರ್ಭಗಳಲ್ಲಿ ಸಮಸ್ಯೆಯಿಲ್ಲ, ಆದರೆ ಬುದ್ಧಿವಂತಿಕೆ ಕಾರ್ಯಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಹತ್ತಾರು ಹಂತಗಳ ಪರಸ್ಪರ ಅಗತ್ಯವಿದೆ.
ಪ್ರಯೋಗ ಫಲಿತಾಂಶಗಳ ಆಳವಾದ ವಿಶ್ಲೇಷಣೆ
ಮುಖ್ಯ ಮಾನದಂಡ ಹೋಲಣೆ
ಮಾನದಂಡ GLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9
ಸಾರಾಂಶ
GLM-5 ಈ ಲೇಖನವು ಮಾಹಿತಿಯ ಪ್ರಮಾಣವನ್ನು ಹೊಂದಿದೆ. ನಿರ್ದಿಷ್ಟ ಸಂಖ್ಯೆಗಳ ಬಗ್ಗೆ ಮಾತನಾಡದೆ, ಇದು ನೀಡುವ ಕೇಂದ್ರ ಮಾಹಿತಿ: ದೊಡ್ಡ ಮಾದರಿಯ ಮುಂದಿನ ಯುದ್ಧಭೂಮಿ "ಕೆಲಸ" ಮಾಡುವುದರಲ್ಲಿ ಮಾತ್ರವಲ್ಲ, "ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಿಸುವುದರಲ್ಲಿ" ಇದೆ.
ಪ್ರತಿಸ್ಪರ್ಧಾ ದೃಷ್ಟಿಯಿಂದ, GLM-5 ಚೀನಾದ AI ತಂಡವು ದೊಡ್ಡ ಮಾದರಿಯ ಮುಂಚೂಣಿಯ ಅಧ್ಯಯನದಲ್ಲಿ ಸ್ಪರ್ಧಾತ್ಮಕತೆಯನ್ನು ತೋರಿಸುತ್ತದೆ.
ಲೇಖನ ಮಾಹಿತಿ
- ಶೀರ್ಷಿಕೆ: GLM-5: Vibe Coding ನಿಂದ Agentic Engineering ಗೆ
- ಸಂಸ್ಥೆ: ಜ್ಞಾಪು AI & ಕ್ವಿಂಗ್ ಹುವಾ ವಿಶ್ವವಿದ್ಯಾಲಯ
- ಲಿಂಕ್:https://arxiv.org/abs/2602.15763

