GLM-5: როდესაც დიდი მოდელები სწავლობენ "თავიანთი კოდის წერა", Vibe Coding-დან Agentic Engineering-ის გადახტომა
GLM-5: როდესაც დიდი მოდელები სწავლობენ "თავიანთი კოდის წერა", Vibe Coding-დან Agentic Engineering-ის გადახტომა
❝
🎯 ერთი წინადადების შეჯამება: ჭკვიანი AI-მა და ტინჰუას უნივერსიტეტმა გამოუშვეს 744B პარამეტრის GLM-5 მოდელი, რომელიც იყენებს DeepSeek Sparse Attention (DSA) ყურადღების გამოთვლის მოცულობის შემცირებისთვის, სრულ ასინქრონულ გაძლიერებულ სწავლებას (Async RL) ხანგრძლივი დავალებების სწავლების ეფექტურობის გასაუმჯობესებლად და მრავალ ეტაპიან შემდგომ სწავლებას, რაც საშუალებას აძლევს დიდ მოდელს "Vibe Coding"-დან "Agentic Engineering"-ში გადავიდეს, რაც ნიშნავს, რომ ის დამოუკიდებლად ახორციელებს რეალურ საინჟინრო პროექტებს.
რატომ არის საჭირო ეს სტატია?
ანდრეი კარპათი 2025 წლის დასაწყისში წარმოადგინა საინტერესო კონცეფცია - Vibe Coding, რაც ნიშნავს, რომ თქვენ უბრალოდ უნდა აღწეროთ მოთხოვნები ბუნებრივ ენაზე, "გრძნობით" უნდა მიაწვდოთ AI-ს კოდი. ეს ნამდვილად არის თანამედროვე AI პროგრამირების მთავარი გამოცდილება: თქვენ ამბობთ一句, მოდელი გეხმარებათ კოდის გენერირებაში, შედეგი კი მთლიანად იღბალზეა დამოკიდებული.
მაგრამ პრობლემა გაჩნდა: რეალური პროგრამული ინჟინერია ბევრად უფრო რთულია, ვიდრე უბრალოდ "კოდის წერა". ნამდვილ ინჟინერს სჭირდება პროექტის არქიტექტურის გაგება, შეცდომების დებაგირება, დამოკიდებულებების მართვა, კროს-მოდულური თანამშრომლობის დამუშავება - ეს ყველაფერი არ არის "ერთი prompt-ით ერთი კოდის გენერირება". GLM-5-ის ეს სტატია მიზნად ისახავს მოდელის "კოდის წერის ასისტენტიდან" "პროექტის დამოუკიდებლად დასრულების ინჟინერში" გარდაქმნას.
ეს არ არის პატარა მიზანი. მისაღწევად, ჭკვიანი გუნდი მუშაობდა მოდელის არქიტექტურაზე, სწავლის პროცესზე, გაძლიერებული სწავლის ალგორითმებზე მრავალი ინოვაციის განხორციელებით. ეს განმარტება დაგეხმარებათ ამ ტექნიკური დეტალების გაწვდაში.
ძირითადი წვლილი: სამი მთავარი ინოვაცია
დეტალებში ჩასვლამდე, განვიხილოთ GLM-5-ის სამი ძირითადი წვლილი:
| წვლილი | პრობლემის გადაწყვეტის ძირითადი იდეა | | --- | --- | | DSA სქელი ყურადღება | 128K ხანგრძლივი კონტექსტის გამოთვლის ხარჯების აფეთქება, დინამიური მნიშვნელოვანი token-ების არჩევა, არაკავშირული გამოტოვება, 1.5-2-ჯერ მეტი გამოთვლის რესურსის დაზოგვა | | ასინქრონული გაძლიერებული სწავლის ჩარჩო | ხანგრძლივი დავალებების RL სწავლების დროს GPU-ს დიდი რაოდენობით თავისუფალი დრო, გენერაცია და სწავლება სრულიად გაწვდილი, პარალელური პროცესირება | | მრავალ ეტაპიანი შემდგომი სწავლების პროცესი | დასკვნა, კოდირება, ინტელექტუალური აგენტები და სხვა მრავალ უნარების ერთდროულად გაწვდვა, SFT→ დასკვნა RL→ ინტელექტუალური RL→ უნივერსალური RL, უნარების თანდათანობითი დაგროვება |
მოდელის არქიტექტურა: MoE-ის ჩარჩოზე "მოკლება"
საფუძვლიანი კონფიგურაცია
GLM-5 იყენებს Mixture-of-Experts (MoE) არქიტექტურას, საერთო პარამეტრები 744B, მაგრამ თითოეულ დასკვნაზე მხოლოდ დაახლოებით 40B პარამეტრი აქტიურდება. ეს "დიდი და სქელი" დიზაინი უკვე ინდუსტრიის საერთო აზრია - DeepSeek-V3/R1, Qwen3 მსგავსი გზით მიდიან.
DSA როგორ მუშაობს?
DSA-ს ძირითადი იდეა შეიძლება ერთი მეტაფორით გავიგოთ: წარმოიდგინეთ, რომ ბიბლიოთეკაში მასალას ეძებთ. სტანდარტული ყურადღება არის ის, რომ მთელი ბიბლიოთეკის ყველა წიგნი უნდა გადახედოთ, შემდეგ კი გადაწყვიტოთ, რომელი არის სასარგებლო. ხოლო DSA უფრო გამოცდილ ბიბლიოთეკარას ჰგავს - ის პირველად იყენებს Lightning Index-ს, რათა სწრაფად სკანიროს წიგნების თაროს სათაურები, დააკავშიროს რამდენიმე შესაძლო დაკავშირებული ზონა, შემდეგ კი მხოლოდ ამ ზონებში კონკრეტული პუნქტების წაკითხვა.
სწავლის პროცესი: ოთხი ეტაპიანი "მონსტრების დამარცხება"
GLM-5-ის სწავლის პროცესი ამ სტატიის მთავარი ნაწილია, რომელიც იყოფა წინასწარ სწავლებასა და შემდგომ სწავლებას.
წინასწარი სწავლის ეტაპი
- მონაცემთა მასშტაბი: 27T token, მონაცემების შერევის პროპორციები მოიცავს ვებსაიტებს, კოდებს, აკადემიურ ნაშრომებს, წიგნებს და ა.შ.
- კონტექსტის გაფართოება: შუა სწავლის პროცესში კონტექსტის ეტაპობრივად გაფართოება 4K-დან 200K-მდე, RoPE სიხშირის რეგულირების გამოყენებით
- ანთების ეტაპი: წინასწარი სწავლის ბოლოს უფრო მაღალი ხარისხის მონაცემებით "დამუშავება"
შემდგომი სწავლების ოთხი ეტაპი
ეს არის GLM-5-ის ყველაზე გამორჩეული ნაწილი. GLM-5-მ ოთხი რაუნდი ჩაატარა:
- მონიტორინგული მიკრო-დამუშავება (SFT) მაღალი ხარისხის ინსტრუქციის მონაცემებით.
- დასკვნის გაძლიერებული სწავლება (Reasoning RL) მათემატიკურ და კოდის დასკვნის დავალებებზე RL სწავლება.
- ინტელექტუალური აგენტის გაძლიერებული სწავლება (Agentic RL), ეს არის ძირითადი ინოვაცია.
- უნივერსალური გაძლიერებული სწავლება (General RL), უფრო ფართო უნივერსალური დავალებების RL.
ასინქრონული გაძლიერებული სწავლება: GPU აღარ "მოიძიებს"
Traditional RL სწავლება არის სინქრონული: მონაცემთა ჯგუფის შეგროვება → ჯილდოს გამოთვლა → მოდელის განახლება → კვლავ შეგროვება. ეს არ არის პრობლემა, როდესაც დავალების დრო მოკლეა, მაგრამ ინტელექტუალური დავალებები ხშირად საჭიროებენ ათობით ნაბიჯის ურთიერთქმედებას.
ექსპერიმენტული შედეგების ღრმა განმარტება
ძირითადი სტანდარტების შედარება
| სტანდარტი | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |
დასკვნა
GLM-5-ის ეს სტატია ძალიან ინფორმატიულია. კონკრეტული ციფრების გარეშე, მისი ძირითადი ინფორმაცია არის: დიდი მოდელების შემდეგი ბრძოლის ველი არის "შრომაში" და არა მხოლოდ "კითხვებზე პასუხში".
კონკურენციის თვალსაზრისით, GLM-5 ადასტურებს ჩინური AI გუნდის კონკურენტუნარიანობას დიდი მოდელების მოწინავე კვლევაში.
სტატიის ინფორმაცია
- სათაური: GLM-5: Vibe Coding-დან Agentic Engineering-მდე
- ორგანიზაცია: ჭკვიანი AI & ტინჰუას უნივერსიტეტი
- ბმული: https://arxiv.org/abs/2602.15763

