El moment Opus del món de codi obert: pot GLM-5 agafar el relleu de la codificació agentica?
Si preguntes a un desenvolupador quin és el moment més frustrant de la programació amb IA,
la seva resposta probablement serà la frase mecànica «Ho sento, no ho he entès bé» davant d'un error, i després repetir un fragment de codi igualment erroni.
En l'últim any, el progrés dels models grans de codificació s'ha reflectit més en la «capacitat de generació»: generar pàgines web, components i petits jocs amb una sola frase; crear una pàgina web d'estil píxel, una icona SVG genial o un joc de la serp que es pot executar en 15 segons. Aquestes demostracions són prou sorprenents, però també prou «lleugeres»; són com joguines avançades produïdes en l'era de la Vibe Coding (programació d'ambient). Però quan es tracta d'arquitectures d'alta concurrència, adaptació de controladors de baix nivell o reconstruccions complexes del sistema, es converteixen en «flors d'hivernacle».
Per tant, recentment, la direcció del vent a Silicon Valley ha canviat.
Tant Claude Opus 4.6 com GPT-5.3, aquests models grans de primer nivell comencen a emfatitzar la codificació agentica: no busquen «resultats instantanis», sinó que completen tasques a nivell de sistema mitjançant la planificació, el desglossament i l'execució repetida.
Aquest canvi de paradigma de l'«estètica frontal» a l'«enginyeria de sistemes» es considerava abans una àrea de monopoli dels gegants de codi tancat. No va ser fins que vaig provar GLM-5 que em vaig adonar que l'«era dels arquitectes» de la comunitat de codi obert havia començat abans d'hora.
01
De «frontal» a «enginyeria de sistemes»
Abans, quan es parlava de la codificació amb IA, la majoria pensava en una narrativa familiar: generar una pàgina web amb una sola frase, fer un petit joc en un minut, crear un efecte dinàmic genial en deu segons. Emfatitzaven la «sensació refrescant visual»: botons que es mouen, pàgines boniques, efectes especials rics.
Però les persones que realment entren a l'escena de l'enginyeria saben que poder generar una demostració no equival a poder suportar un sistema.
La dificultat de les tasques complexes no rau en «escriure codi», sinó en com desglossar els mòduls, com gestionar els estats, com fer còpies de seguretat de les excepcions, com optimitzar el rendiment i si encara es pot mantenir l'estabilitat de l'estructura quan el sistema comença a ser complex.
Aquesta és també la raó per la qual vam triar tasques complexes com a objectes de prova reals.
El posicionament de GLM-5 és diferent de molts productes de la competència.
Si la majoria de models s'assemblen més a un «frontal excel·lent» (expert en generar ràpidament interfícies interactives i efectes visuals), GLM-5 s'inclina més cap a un «rol d'enginyeria de sistemes». Emfatitza la col·laboració entre diversos mòduls, les tasques de llarga durada i l'estabilitat estructural que es pot executar en un entorn de producció.
Per verificar-ho, vam dissenyar dos casos de prova reals en dimensions completament diferents.
La primera prova és una tasca aparentment fàcil, però altament sistemàtica: basant-se en el navegador i la càmera, implementar un joc interactiu amb temàtica de Cap d'Any xinès d'«IA visual que controla focs artificials a l'aire».
Com es pot veure al vídeo de la prova real, l'usuari es troba davant de la càmera i controla la direcció i el ritme del llançament de focs artificials mitjançant gestos; els focs artificials floreixen a l'aire, acompanyats d'efectes de partícules i retroalimentació d'efectes de llum dinàmics, i la interacció general és fluida i natural.
Però aquest no és un simple projecte d'efectes dinàmics frontals. Conté almenys els següents mòduls bàsics: reconeixement de gestos i processament d'entrada visual; assignació de coordenades de gestos a la lògica de llançament; sistema de partícules de focs artificials i efectes especials de floració; renderització en temps real i control de la velocitat de fotogrames; compatibilitat del navegador i gestió d'excepcions de permisos de la càmera; gestió de l'estat de la interacció i mecanismes de retroalimentació de l'usuari.
Es pot dir que és un petit sistema interactiu amb una estructura completa i una experiència fluida. Des del procés de prova real, GLM-5 no va entrar directament a la codificació, sinó que primer va planificar l'arquitectura general: com separar els mòduls d'entrada visual, la capa de lògica de control, la capa de renderització i la capa d'efectes especials; com transmetre el flux de dades; quines parts poden convertir-se en colls d'ampolla de rendiment.
Posteriorment, va implementar la lògica capa per capa, començant pel processament de dades del reconeixement de gestos, passant pel càlcul de la trajectòria de llançament i acabant amb l'ajustament dels paràmetres de l'efecte d'explosió de partícules.
Quan la renderització es va quedar encallada, va suggerir activament reduir el nombre de partícules i optimitzar l'estructura del bucle; quan el reconeixement de gestos va jutjar malament, va ajustar els llindars i les estratègies de filtratge.
L'efecte que es mostra al vídeo és una «interacció que sembla molt natural». Però el que hi ha darrere és una cadena d'enginyeria completa: planificació → escriptura → depuració → optimització del rendiment → correcció de la interacció.
El codi generat finalment es pot executar directament, la interacció és estable, la velocitat de fotogrames és suau i les situacions anòmales es poden gestionar. El que és més important, la seva forma de treballar presenta un pensament de sistema clar: els límits del mòdul són clars, la estratificació lògica és raonable, en lloc d'apilar totes les funcions en un sol fitxer.
La segona prova de cas és la capacitat del sistema estructural. Aquest escenari es pot dir que és el treball diari dels mitjans de comunicació: importar una transcripció d'una entrevista, resumir el contingut i generar angles i idees per a temes.
Com es pot veure a la prova real, el procés d'operació és molt directe: vaig enganxar una còpia de la transcripció d'una entrevista de fa un temps, el model va començar a analitzar i després va generar un resum del contingut i angles per a temes. Des dels resultats, els angles per a temes que va generar són molt factibles.
En comparació amb el sistema d'interacció visual, l'organització de la gravació sembla senzilla, però en realitat posa a prova la «capacitat d'abstracció estructural» del model. Una gravació d'entrevista real sol ser altament no estructurada: punts de vista que salten, informació que es repeteix, línies principals i secundàries entrellaçades. Per tant, en aquest cas, la capacitat que mostra GLM-5 és a nivell de sistema.
En primer lloc, la capacitat d'identificació de temes i extracció de la línia principal. El model no va generar un resum segons l'ordre del text original, sinó que primer va jutjar quin era el tema central i després va reorganitzar el contingut al voltant d'aquest tema. Això significa que va completar una exploració interna per identificar quina informació pertany a la línia principal i quina pertany al suplement o al soroll. Aquesta capacitat és essencialment una capacitat de planificació, és a dir, establir primer un marc d'estructura abstracta abans de generar la sortida.
En segon lloc, la capacitat de reorganització modular. Classificarà els punts de vista relacionats dispersos en diferents paràgrafs al mateix mòdul. Aquesta capacitat d'integració entre paràgrafs indica que el model té una consistència global quan processa textos llargs.
En tercer lloc, la capacitat d'ajust actiu de l'ordre lògic. L'esquema generat realment sol ser diferent de l'ordre de gravació original. Es pot veure que GLM-5 té una capacitat de judici que «la lògica té prioritat sobre l'ordre d'entrada original» segons la relació causal o la lògica d'argumentació per reorganitzar els nivells. Aquest mode de «primer estructura, després sortida» és el nucli del pensament d'enginyeria de sistemes.
Aquests dos casos, un és un sistema d'interacció visual en temps real i l'altre és un sistema de processament d'estructura d'informació de mitjans, semblen completament diferents. Però el que verifiquen és el mateix: GLM-5 té una capacitat de bucle tancat de tasques completa: planificació → execució → depuració → optimització.
En el joc de focs artificials, això es reflecteix en la estratificació de mòduls, l'optimització del rendiment i la gestió d'excepcions; en el processador de gravació, això es reflecteix en el judici del tema, el desglossament de l'estructura i la reorganització lògica. El seu punt comú és que el model no es va quedar en la «generació de resultats», sinó que va mantenir una estructura que es pot evolucionar de manera sostenible.
Vaig continuar provant una tasca relativament complexa, «construir un nucli de sistema operatiu minimalista». En aquesta prova real, el que realment val la pena assenyalar no és que el codi del vídeo finalment s'executi, sinó la forma en què GLM-5 es comporta durant tot el procés.
No va entrar immediatament en l'estat de generació quan va rebre la tasca, sinó que primer va aclarir els límits de la tasca, va desglossar activament els mòduls, va planificar l'estructura del sistema i després va entrar a la fase d'implementació. Aquest camí de «l'estructura primer» és essencialment el pensament d'enginyeria que s'ha dit abans: primer definir com es compon el sistema i després discutir els detalls específics de la implementació, en lloc d'escriure i combinar.
En el cicle de múltiples rondes d'escriptura, execució, informes d'errors i correccions, GLM-5 tampoc va mostrar un col·lapse estructural. Cada modificació es va dur a terme al voltant de l'arquitectura establerta, en lloc de derrocar-la i tornar-la a fer o fer pegats locals. Això indica que manté un model de sistema complet internament i pot mantenir la consistència en tasques de llarga durada. Molts models són propensos a contradiccions abans i després que el context s'allargui, i el rendiment del vídeo reflecteix precisament la seva capacitat de memòria contínua de l'estructura general.
També hi ha la seva forma de gestionar els errors. Quan es produeix un error, no es va quedar en la conjectura superficial de «pot ser un problema amb una línia de codi», sinó que primer va jutjar el tipus d'error, va distingir entre problemes lògics, problemes d'entorn o conflictes de dependència i després va planificar la ruta de resolució de problemes. Aquesta és una depuració a nivell d'estratègia, dissenyada per reparar la ruta del problema.
Si es combina amb la invocació d'eines, aquesta capacitat serà més evident. No només ofereix suggeriments d'ordres, sinó que també combina l'execució activa de la terminal de programació, l'anàlisi de registres, la reparació de l'entorn i després continua avançant en la tasca. Aquest comportament ja s'acosta a un avanç d'enginyeria d'estil «conducció automàtica». Si l'objectiu no s'ha completat, continua iterant.
Planificar primer i després executar, mantenir l'estabilitat estructural en enllaços llargs, resoldre problemes de manera estratègica i avançar contínuament al voltant de l'objectiu: precisament la superposició de les quatre capacitats bàsiques requerides per l'enginyeria de sistemes permet que GLM-5 comenci a mostrar patrons de comportament propers a la forma de treballar dels enginyers.
Per què GLM-5 pot agafar el relleu de l'«arquitecte»?
Si la primera part de la prova va demostrar que GLM-5 «pot fer treballs complexos», la següent pregunta és: per què pot? La resposta rau en tot un conjunt de «patrons de comportament a nivell d'enginyeria» amagats darrere de la sortida.
Un punt clau és que GLM-5 òbviament ha introduït un mecanisme d'autocontrol de la cadena de pensament similar a Claude Opus 4.6.
En l'ús real, es pot sentir que no comença immediatament a «omplir codi» quan rep una tasca, sinó que realitza múltiples rondes de deducció lògica en segon pla: predir la relació d'acoblament entre els mòduls, evitar activament les rutes de bucle infinit i descobrir per endavant els conflictes de recursos i els problemes de condicions de contorn. El canvi directe que aporta aquest comportament és que, per garantir que la solució es mantingui a nivell d'enginyeria, està disposat a anar més lent i pensar en el problema de manera completa.
En tasques complexes, GLM-5 primer donarà un desglossament clar del mòdul: de quins submòduls es compon el sistema, quines són les entrades i sortides de cada mòdul, quines parts es poden avançar en paral·lel i quines s'han de completar en sèrie. Després, els superarà un per un, en lloc d'escriure i pensar alhora. Això fa que la seva forma de treballar s'assembli més a un enginyer real: primer dibuixar el diagrama d'arquitectura i després escriure els detalls de la implementació. Òbviament, sent que té una mena de «tenacitat per no parar fins que el problema no s'hagi resolt completament», en lloc d'acabar precipitadament després de completar una part que sembla correcta.
Aquesta diferència és especialment evident en la comparació amb els models de codificació tradicionals. En el passat, molts models, quan es trobaven amb un error, lliscaven ràpidament en un mode familiar: demanar disculpes, repetir la informació de l'error i donar un suggeriment de reparació no verificat; si tornava a fallar, començava a generar cíclicament respostes aproximades. La forma en què GLM-5 gestiona és més propera a un arquitecte veterà. En la prova real, quan el projecte no es podia executar a causa de problemes de dependència de l'entorn, no es va quedar en la informació d'error superficial, sinó que va analitzar activament l'arbre de dependència (Dependency Tree), va jutjar la font del conflicte i va dirigir OpenClaw per reparar l'entorn.
Tot el procés és més com un desplegament d'estil «conducció automàtica»: el model no respon de manera passiva, sinó que llegeix contínuament els registres, corregeix les rutes i verifica els resultats.
Una altra capacitat que sovint s'ignora, però que és extremadament important en l'enginyeria de sistemes, és la integritat del context.
La finestra de Token de nivell de milió de GLM-5 li permet entendre l'estructura del codi, les modificacions històriques, els fitxers de configuració i els registres d'execució de tot el projecte en el mateix context. Això significa que ja pot jutjar des d'una perspectiva global quins mòduls tindran reaccions en cadena a una modificació. En tasques de llarga durada, aquesta capacitat determina directament si el model és «intel·ligent però miop» o «estable i controlable».
En resum, GLM-5 realment agafa el paper d'«arquitecte» principalment perquè comença a pensar en els problemes com un arquitecte: planificar primer, després executar; verificar contínuament, corregir constantment; centrar-se en el sistema en general, en lloc de l'èxit d'un sol punt.
Aquesta és també la raó fonamental per la qual pot completar les tasques de prova reals a nivell de sistema de la primera part.
03
L'Opus del món de codi obert?
Posat en l'ecosistema de models grans de 2026, el valor de GLM-5 rau més en el fet que va trencar una cosa que abans s'acceptava gairebé per defecte: la intel·ligència a nivell de sistema sembla que només pot existir en models de codi tancat.
Anteriorment, Claude Opus 4.6 i GPT-5.3 van executar realment el camí de la «codificació agentica»: el model ja no busca retroalimentació immediata, sinó que completa tasques d'enginyeria realment complexes mitjançant la planificació, el desglossament i l'execució repetida. Però el cost també és molt alt: el consum de Token de les tasques d'alta intensitat és extremadament alt, i un intent complet a nivell de sistema sovint significa un cost d'invocació considerable.
GLM-5 ofereix aquí una solució diferent. Com a model de codi obert, va portar l'«IA a nivell d'arquitecte de sistemes» des del núvol i les factures a l'entorn propi del desenvolupador. Podeu desplegar-lo localment i deixar-lo passar temps rosegant els treballs bruts, cansats i grans: ajustar els registres, comprovar les dependències, modificar el codi antic i complementar les condicions de contorn.
Això es pot veure com un canvi estructural de rendibilitat: la intel·ligència a nivell d'arquitecte ja no és un privilegi d'uns quants equips.
Si s'entén aquesta diferència amb una metàfora professional, serà més intuïtiva. Models com Kimi 2.5 s'assemblen més a enginyers frontals excel·lents amb estètica en línia i un fort sentit de la interacció, experts en la generació d'un sol tret, la presentació visual i la retroalimentació ràpida; mentre que l'estil de GLM-5 és òbviament diferent, s'assembla més a un arquitecte de sistemes veterà que manté la línia de fons i valora la lògica: centrar-se en les relacions entre mòduls, les rutes d'excepció, la mantenibilitat i el funcionament estable a llarg termini.
Darrere d'això, en realitat, hi ha un avanç professional clar de la programació d'IA: des de la recerca de la «sensació refrescant» de la Vibe Coding fins a l'èmfasi en la robustesa i la disciplina d'enginyeria de l'Engineering.
Més important encara, l'aparició de GLM-5 fa que el concepte d'empresa unipersonal sigui més factible.Quan un desenvolupador pot tenir localment un soci d'IA que entengui el disseny de sistemes, pugui funcionar a llarg termini i pugui autocorregir-se, molts treballs d'enginyeria que originalment requerien un equip per completar-se comencen a comprimir-se en un rang controlable per una sola persona. A continuació, GLM-5 té el potencial de convertir-se en el "soci digital" responsable de la implementació d'enginyeria bàsica en una empresa unipersonal.





