GLM-5: când modelele mari învață să "scrie cod singure", trecerea de la Vibe Coding la Agentic Engineering

2/26/2026
4 min read

GLM-5: când modelele mari învață să "scrie cod singure", trecerea de la Vibe Coding la Agentic Engineering

🎯 Rezumat pe scurt: Zhizhu AI, împreună cu Universitatea Tsinghua, a lansat modelul GLM-5 cu 744B de parametri, care comprimă volumul de calcul al atenției prin DeepSeek Sparse Attention (DSA), îmbunătățește eficiența antrenamentului pentru sarcini lungi prin învățare prin întărire complet asincronă (Async RL) și utilizează un proces de antrenament post-învățare în mai multe etape, permițând modelului să evolueze de la "Vibe Coding" la "Agentic Engineering", capabil să finalizeze proiecte de inginerie reale.

De ce este necesară această lucrare?

Andrej Karpathy a propus la începutul anului 2025 un concept interesant - Vibe Coding, care înseamnă că trebuie doar să descrii cerințele în limbaj natural și să lași AI-ul să scrie cod "pe baza sentimentului". Aceasta este, într-adevăr, experiența principală a programării AI de astăzi: spui o propoziție, iar modelul îți generează un cod, iar eficiența depinde de noroc.

Dar problema este: ingineria software reală nu este atât de simplă precum "scrierea codului". Un inginer adevărat trebuie să înțeleagă arhitectura proiectului, să depaneze erori, să gestioneze dependențe, să se ocupe de colaborarea între module - toate acestea nu pot fi rezolvate prin "o propoziție care generează un cod". Lucrarea GLM-5 își propune să transforme modelul dintr-un "asistent care te ajută să scrii cod" într-un "inginer capabil să finalizeze întregul proiect".

Acesta nu este un obiectiv mic. Pentru a-l atinge, echipa Zhizhu a realizat numeroase inovații în arhitectura modelului, procesul de antrenament și algoritmii de învățare prin întărire. Această interpretare te va ajuta să descompui aceste detalii tehnice.

Contribuții cheie: trei axe

Înainte de a aprofunda detaliile, să clarificăm cele trei contribuții cheie ale GLM-5:

ContribuțiaProblema rezolvatăIdeea principalăAtenția rară DSACostul de calcul pentru un context lung de 128K explodeazăAlege dinamic token-uri importante, sărind peste cele irelevante, economisind 1.5-2 ori puterea de calculCadru de învățare prin întărire asincronÎn antrenamentul RL pentru sarcini lungi, GPU-urile sunt adesea ineficienteGenerarea și antrenamentul sunt complet decuplate, permițând paralele în stil pipelineProces de antrenament post-învățare în mai multe etapeDiverse abilități precum inferența, codarea, agenții sunt greu de gestionatSFT→ inferență RL→ agenți RL→ RL general, adăugând treptat abilități

Arhitectura modelului: "scăderea" pe un cadru MoE

Configurare de bază

GLM-5 utilizează arhitectura Mixture-of-Experts (MoE), având un total de 744B de parametri, dar activează doar aproximativ 40B de parametri la fiecare inferență. Această design "mare și rar" a devenit un consens în industrie - DeepSeek-V3/R1, Qwen3 au urmat o cale similară.

Cum funcționează DSA?

Ideea centrală a DSA poate fi înțeleasă printr-o analogie: imaginează-ți că cauți informații într-o bibliotecă. Atenția standard este ca și cum ai răsfoi fiecare carte din întreaga bibliotecă și apoi ai decide care sunt utile. În schimb, DSA este mai degrabă ca un bibliotecar experimentat - el folosește mai întâi Lightning Index pentru a scana rapid titlurile rafturilor, identificând câteva zone potențial relevante, apoi citește cu atenție doar paragrafele specifice din aceste zone.

Procesul de antrenament: "nivelare" în patru etape

Procesul de antrenament al GLM-5 este piesa de rezistență a acestei lucrări, fiind împărțit în două mari etape: pre-antrenament și post-antrenament.

Etapa de pre-antrenament

  • Dimensiunea datelor: 27T token, proporția datelor include pagini web, cod, lucrări științifice, cărți etc.
  • Extinderea contextului: prin antrenamentul intermediar, contextul este extins treptat de la 4K la 200K, folosind ajustarea frecvenței RoPE
  • Etapa de răcire: la sfârșitul pre-antrenamentului, se utilizează date de calitate superioară pentru a face "finisaje"

Patru pași în post-antrenament

Aceasta este partea cea mai distinctivă a GLM-5. GLM-5 a realizat patru runde:

  • Îmbunătățire supervizată (SFT) folosind date de instrucțiuni de înaltă calitate pentru ajustare.
  • Învățare prin întărire pentru inferență (Reasoning RL) în sarcini de inferență matematică și cod.
  • Învățare prin întărire pentru agenți (Agentic RL), aceasta fiind inovația cheie.
  • Învățare prin întărire generală (General RL), în sarcini generale mai largi.

Învățare prin întărire asincronă: să nu mai fie GPU-urile "inactivi"

Antrenamentul RL tradițional este sincron: colectează un lot de date → calculează recompense → actualizează modelul → colectează din nou. Aceasta nu este o problemă în cazul sarcinilor cu timp scurt, dar sarcinile agenților necesită adesea zeci de interacțiuni.

Interpretarea profundă a rezultatelor experimentale

Compararea principalelor benchmark-uri

BenchmarkGLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9

Concluzie

Lucrarea GLM-5 conține o cantitate mare de informații. Lăsând deoparte cifrele specifice, mesajul central pe care îl transmite este: următoarea bătălie a modelelor mari se află în "a lucra" și nu doar în "a răspunde la întrebări".

Pe plan competitiv, GLM-5 demonstrează competitivitatea echipelor AI din China în cercetarea de vârf a modelelor mari.

Informații despre lucrare

Published in Technology

You Might Also Like