Le moment Opus du monde open source : GLM-5 peut-il reprendre le flambeau du codage agentique ?

2/13/2026
15 min read

Si vous demandez à un développeur quel est le moment le plus frustrant du codage par IA ?

Sa réponse sera probablement la phrase mécanique « Désolé, je n’ai pas compris » devant une erreur, puis la répétition d’un code tout aussi erroné.

Au cours de l’année écoulée, les progrès des grands modèles de codage se sont davantage reflétés dans la « capacité de génération » : générer des pages Web, des composants, des petits jeux en une seule phrase : créer une page Web de style pixel, une icône SVG cool ou un jeu de serpent fonctionnel en 15 secondes. Ces démos sont suffisamment étonnantes, mais aussi suffisamment « légères ». Elles ressemblent un peu à des jouets sophistiqués produits à l’ère du Vibe Coding (programmation d’ambiance). Mais lorsqu’il s’agit d’architectures à forte concurrence, d’adaptation de pilotes de bas niveau ou de restructuration complexe du système, elles deviennent des « fleurs de serre ».

C’est pourquoi, récemment, la tendance dans la Silicon Valley a changé.

Qu’il s’agisse de Claude Opus 4.6 ou de GPT-5.3, ces grands modèles de pointe commencent à mettre l’accent sur le codage agentique : ne pas rechercher des « résultats instantanés », mais accomplir des tâches au niveau du système par la planification, le démantèlement et l’exécution répétée.

Ce changement de paradigme de « l’esthétique frontale » à « l’ingénierie des systèmes » était autrefois considéré comme une zone de monopole pour les géants à code source fermé. Ce n’est que lorsque j’ai testé GLM-5 que j’ai réalisé que « l’ère des architectes » de la communauté open source avait commencé plus tôt.

01

De « l’interface frontale » à « l’ingénierie des systèmes »

Auparavant, lorsque l’on parlait de codage par IA, on pensait surtout à un récit familier : générer une page Web en une phrase, créer un petit jeu en une minute et créer un effet dynamique cool en dix secondes. Ils mettent l’accent sur le « plaisir visuel » : les boutons bougent, les pages sont belles et les effets spéciaux sont riches.

Mais ceux qui entrent réellement sur le chantier savent que la capacité de générer une démo ne signifie pas la capacité de prendre en charge un système.

La difficulté des tâches complexes ne réside pas dans « l’écriture du code », mais dans la façon dont les modules sont divisés, dont les états sont gérés, dont les exceptions sont gérées, dont les performances sont optimisées et dans la question de savoir si la stabilité structurelle peut être maintenue lorsque le système devient complexe.

C’est pourquoi nous avons choisi des tâches complexes comme objets de test réels.

Le positionnement de GLM-5 est différent de celui de nombreux produits concurrents.

Si la plupart des modèles ressemblent davantage à un « excellent front-end » : ils sont doués pour générer rapidement des interfaces interactives et des effets visuels, alors GLM-5 est plus orienté vers un « rôle d’ingénierie des systèmes ». Il met l’accent sur la collaboration multi-modules, les tâches à longue chaîne et la stabilité structurelle exécutable dans l’environnement de production.

Pour vérifier cela, nous avons conçu deux cas de test réels de dimensions complètement différentes.

Le premier test, une tâche apparemment facile, mais en réalité hautement systématisée : créer un jeu interactif sur le thème du Nouvel An « Feux d’artifice contrôlés par l’IA par le biais de la vision aérienne » basé sur le navigateur et la caméra.

Dans la vidéo du test réel, on peut voir que l’utilisateur se tient devant la caméra et contrôle la direction et le rythme du lancement des feux d’artifice par des gestes ; les feux d’artifice s’épanouissent dans l’air, accompagnés d’effets de particules et de rétroaction d’effets de lumière dynamiques, et l’interaction globale est fluide et naturelle.

Mais il ne s’agit pas d’un simple projet d’effets dynamiques frontaux. Il comprend au moins les modules de base suivants : reconnaissance des gestes et traitement de l’entrée visuelle ; mappage des coordonnées des gestes à la logique de lancement ; système de particules de feux d’artifice et effets spéciaux d’épanouissement ; rendu en temps réel et contrôle de la fréquence d’images ; compatibilité du navigateur et gestion des exceptions d’autorisation de la caméra ; gestion de l’état de l’interaction et mécanisme de rétroaction de l’utilisateur.

On peut dire qu’il s’agit d’un petit système interactif avec une structure complète et une expérience fluide. Du point de vue du processus de test réel, GLM-5 n’est pas entré directement dans le codage, mais a d’abord planifié l’architecture globale : comment séparer le module d’entrée visuelle, la couche de logique de contrôle, la couche de rendu et la couche d’effets spéciaux ; comment transmettre le flux de données ; quelles parties peuvent devenir des goulots d’étranglement en matière de performances.

Ensuite, il a mis en œuvre la logique couche par couche, en commençant par le traitement des données de la reconnaissance des gestes, en passant par le calcul de la trajectoire de lancement, puis par l’optimisation des paramètres de l’effet d’explosion de particules.

Lorsque le rendu est bloqué, il suggère activement de réduire le nombre de particules et d’optimiser la structure de la boucle ; lorsque la reconnaissance des gestes est mal jugée, il ajuste le seuil et la stratégie de filtrage.

L’effet présenté dans la vidéo est une « interaction qui semble très naturelle ». Mais ce qui se reflète derrière cela, c’est une chaîne d’ingénierie complète : planification → écriture → débogage → optimisation des performances → correction de l’interaction.

Le code finalement généré peut être exécuté directement, l’interaction est stable, la fréquence d’images est fluide et les situations anormales peuvent être gérées. Plus important encore, son mode de fonctionnement présente une pensée systémique claire : les limites des modules sont claires, la stratification logique est raisonnable, au lieu d’empiler toutes les fonctions dans un seul fichier.

Le deuxième cas testé est la capacité du système de structure. Ce scénario peut être considéré comme le travail quotidien des médias : importer une transcription d’interview, résumer le contenu et produire des angles et des idées de sujets.

Comme on peut le voir dans le test réel, le processus de fonctionnement est très direct : j’ai collé une transcription d’interview d’il y a quelque temps, le modèle a commencé à analyser, puis a produit un résumé du contenu et des angles de sujets. D’après les résultats, les angles de sujets qu’il a générés sont toujours très opérationnels.

Comparé au système d’interaction visuelle, le tri des enregistrements semble simple, mais il teste en fait la « capacité d’abstraction structurelle » du modèle. Un véritable enregistrement d’interview est souvent très non structuré : les points de vue sautent, les informations se répètent et la ligne principale et les lignes secondaires s’entrecroisent. Par conséquent, dans ce cas, la capacité démontrée par GLM-5 se situe au niveau du système.

Tout d’abord, la capacité d’identification du thème et d’extraction de la ligne principale. Le modèle ne génère pas de résumé dans l’ordre du texte original, mais détermine d’abord quel est le problème central, puis réorganise le contenu autour de ce problème. Cela signifie qu’il effectue une analyse interne pour identifier quelles informations appartiennent à la ligne principale et lesquelles appartiennent à des ajouts ou à du bruit. Cette capacité est essentiellement une capacité de planification, c’est-à-dire qu’elle établit d’abord un cadre de structure abstraite avant de produire.

Deuxièmement, la capacité de réorganisation modulaire. Il classera les points de vue connexes dispersés dans différents paragraphes dans le même module. Cette capacité d’intégration inter-paragraphes montre que le modèle a une cohérence globale lors du traitement de longs textes.

Troisièmement, la capacité d’ajustement actif de l’ordre logique. Le plan réellement produit est souvent différent de l’ordre d’enregistrement original. On peut voir que GLM-5 réorganise les niveaux en fonction des relations de cause à effet ou de la logique de l’argumentation. Cela reflète un jugement selon lequel « la logique est prioritaire par rapport à l’ordre d’entrée original ». Ce modèle de « structure d’abord, puis sortie » est au cœur de la pensée de l’ingénierie des systèmes.

Ces deux cas, l’un est un système d’interaction visuelle en temps réel et l’autre est un système de traitement de la structure de l’information médiatique, semblent complètement différents. Mais ils vérifient la même chose : GLM-5 a une capacité de boucle fermée de tâche complète : planification → exécution → débogage → optimisation.

Dans le jeu de feux d’artifice, cela se reflète dans la stratification des modules, l’optimisation des performances et la gestion des exceptions ; dans le processeur d’enregistrement, cela se reflète dans le jugement du thème, le démantèlement de la structure et la réorganisation logique. Leur point commun est que le modèle ne reste pas au niveau de la « génération de résultats », mais maintient une structure durable et évolutive.

J’ai continué à essayer une tâche relativement complexe, « construire un noyau de système d’exploitation minimaliste ». Dans ce test réel. Ce qui mérite vraiment d’être noté, ce n’est pas que le code de la vidéo finisse par s’exécuter, mais le mode de fonctionnement de GLM-5 tout au long du processus.

Il n’est pas entré immédiatement dans l’état de génération après avoir reçu la tâche, mais a d’abord clarifié les limites de la tâche, a divisé activement les modules, a planifié la structure du système, puis est entré dans la phase de mise en œuvre. Ce chemin « structure d’abord » est essentiellement la pensée d’ingénierie mentionnée précédemment : définir d’abord comment le système est composé, puis discuter des détails de mise en œuvre spécifiques, au lieu d’écrire et d’assembler en même temps.

Dans le cycle de plusieurs tours d’écriture, d’exécution, de signalement d’erreurs et de correction, GLM-5 n’a pas non plus montré d’effondrement de la structure. Chaque modification est effectuée autour de l’architecture établie, au lieu de renverser et de recommencer ou d’appliquer des correctifs locaux. Cela montre qu’il maintient un modèle de système complet en interne, capable de maintenir la cohérence dans les tâches à longue chaîne. De nombreux modèles sont sujets à des contradictions avant et après lorsque le contexte est étendu, et la performance dans la vidéo reflète précisément sa capacité de mémoire continue de la structure globale.

Il y a aussi sa façon de traiter les erreurs. Lorsque des erreurs se produisent, il ne reste pas au niveau de la conjecture superficielle « il peut y avoir un problème avec une ligne de code », mais juge d’abord le type d’erreur, distingue les problèmes de logique, les problèmes d’environnement ou les conflits de dépendance, puis planifie le chemin d’enquête. Il s’agit d’un débogage au niveau de la stratégie, visant à réparer le chemin du problème.

Si elle est combinée à l’appel d’outils, cette capacité sera plus évidente. Il ne se contente pas de donner des suggestions de commandes, mais combine également la planification active de l’exécution du terminal, l’analyse des journaux, la réparation de l’environnement, puis continue de faire avancer la tâche. Ce comportement se rapproche déjà d’une promotion d’ingénierie de type « conduite autonome ». Si l’objectif n’est pas atteint, il continue d’itérer.

Planifier d’abord, puis exécuter, maintenir la stabilité structurelle dans les longues chaînes, enquêter sur les problèmes de manière stratégique et faire avancer continuellement les objectifs : c’est la superposition des quatre capacités de base requises par l’ingénierie des systèmes qui permet à GLM-5 de commencer à présenter un mode de comportement proche de celui d’un ingénieur.

Pourquoi GLM-5 peut-il reprendre le flambeau de « l’architecte » ?

Si la première partie du test réel prouve que GLM-5 « peut faire un travail complexe », alors la question suivante est : comment peut-il le faire ? La réponse réside dans tout un ensemble de « modes de comportement de niveau ingénierie » cachés derrière la sortie.

Un point clé est que GLM-5 a manifestement introduit un mécanisme d’auto-vérification de la chaîne de pensée similaire à Claude Opus 4.6.

Dans l’utilisation réelle, on peut sentir qu’il ne commence pas immédiatement à « remplir le code » après avoir reçu la tâche, mais effectue plusieurs tours de déduction logique en arrière-plan : prédire la relation de couplage entre les modules, éviter activement les chemins de boucle infinie, découvrir à l’avance les conflits de ressources et les problèmes de conditions aux limites. Le changement direct apporté par ce comportement est que, afin de s’assurer que le plan est viable en termes d’ingénierie, il est prêt à ralentir et à réfléchir complètement au problème.

Dans les tâches complexes, GLM-5 donnera d’abord une décomposition modulaire claire : de quels sous-modules le système est-il composé, quelles sont les entrées et les sorties de chaque module, quelles parties peuvent être avancées en parallèle et lesquelles doivent être effectuées en série. Ensuite, il les surmontera un par un, au lieu d’écrire et de réfléchir en même temps. Cela rend son mode de fonctionnement plus semblable à celui d’un véritable ingénieur : dessiner d’abord le schéma d’architecture, puis écrire les détails de mise en œuvre. On sent clairement qu’il a une sorte de « ténacité à ne pas s’arrêter tant que le problème n’est pas complètement résolu », au lieu de terminer à la hâte après avoir terminé une partie qui semble correcte.

Cette différence est particulièrement évidente dans la comparaison avec les modèles de codage traditionnels. Dans le passé, de nombreux modèles, lorsqu’ils rencontraient des erreurs, glissaient rapidement dans un mode familier : s’excuser, répéter les informations d’erreur, donner une suggestion de correction non vérifiée ; s’ils échouaient à nouveau, ils commençaient à produire en boucle des réponses approximatives. La méthode de traitement de GLM-5 est plus proche de celle d’un architecte chevronné. Dans le test réel, lorsque le projet ne pouvait pas s’exécuter en raison de problèmes de dépendance de l’environnement, il ne s’est pas arrêté aux informations d’erreur superficielles, mais a analysé activement l’arborescence des dépendances (Dependency Tree), a déterminé la source du conflit et a ensuite ordonné à OpenClaw d’effectuer la réparation de l’environnement.

L’ensemble du processus ressemble davantage à un déploiement de type « conduite autonome » : le modèle ne répond pas passivement, mais lit, corrige les chemins et vérifie les résultats en continu.

Une autre capacité souvent négligée, mais extrêmement importante dans l’ingénierie des systèmes, est l’intégrité du contexte.

La fenêtre de jetons de niveau million de GLM-5 lui permet de comprendre la structure du code, les modifications historiques, les fichiers de configuration et les journaux d’exécution de l’ensemble du projet dans le même contexte. Cela signifie qu’il est déjà capable de juger du point de vue global quelles réactions en chaîne une modification aura sur quels modules. Dans les tâches à longue chaîne, cette capacité détermine directement si le modèle est « intelligent mais myope » ou « stable et contrôlable ».

Dans l’ensemble, GLM-5 reprend vraiment le rôle « d’architecte », principalement parce qu’il commence à penser aux problèmes comme un architecte : planifier d’abord, puis exécuter ; vérifier en permanence, corriger en permanence ; se concentrer sur l’ensemble du système, plutôt que sur le succès d’un seul point.

C’est aussi la raison fondamentale pour laquelle il est capable d’accomplir les tâches de test réel au niveau du système dans la première partie.

03

L’Opus du monde open source ?

Dans l’écosystème des grands modèles de 2026, la valeur de GLM-5 réside davantage dans le fait qu’il a brisé une chose qui était presque acceptée par défaut auparavant : l’intelligence au niveau du système ne peut sembler exister que dans les modèles à code source fermé.

Auparavant, Claude Opus 4.6 et GPT-5.3 ont effectivement ouvert la voie du « codage agentique » : le modèle ne recherche plus de rétroaction immédiate, mais effectue des tâches d’ingénierie vraiment complexes par la planification, le démantèlement et l’exécution répétée. Mais le coût est également élevé : la consommation de jetons des tâches à haute intensité est extrêmement élevée, et une tentative complète au niveau du système signifie souvent un coût d’appel considérable.

GLM-5 offre ici une solution différente. En tant que modèle open source, il a ramené « l’IA de niveau architecte système » du cloud et des factures dans l’environnement des développeurs. Vous pouvez le déployer localement et le laisser passer du temps à ronger les travaux sales, fatiguants et importants : ajuster les journaux, vérifier les dépendances, modifier l’ancien code, compléter les conditions aux limites.

Cela peut être considéré comme un changement structurel rentable : l’intelligence de niveau architecte n’est plus le privilège de quelques équipes.

Si vous comprenez cette différence avec une métaphore professionnelle, elle sera plus intuitive. Les modèles comme Kimi 2.5 ressemblent davantage à d’excellents ingénieurs frontaux avec une esthétique en ligne et un sens de l’interaction extrêmement fort, doués pour la génération en un seul coup, la présentation visuelle et la rétroaction rapide ; tandis que le style de GLM-5 est évidemment différent, il ressemble davantage à un architecte système chevronné qui garde le cap, accorde de l’importance à la logique : se concentrer sur les relations entre les modules, les chemins d’exception, la maintenabilité et le fonctionnement stable à long terme.

Derrière cela, il y a en fait une progression professionnelle claire de l’IA de programmation : passer de la poursuite du Vibe Coding « qui a l’air très cool » à l’accent mis sur la robustesse et la discipline d’ingénierie de l’ingénierie.

Plus important encore, l’émergence de GLM-5 rend le concept d’entreprise individuelle plus réalisable.Quand un développeur peut avoir localement un partenaire IA qui comprend la conception de systèmes, qui peut fonctionner à long terme et qui peut s'auto-corriger, de nombreux travaux d'ingénierie qui nécessitaient auparavant une équipe peuvent être réduits à la portée d'une seule personne. Ensuite, GLM-5 a le potentiel de devenir ce « partenaire numérique » responsable de la mise en œuvre de l'ingénierie de base dans une entreprise individuelle.

Published in Technology

You Might Also Like