GLM-5: cuando los grandes modelos aprenden a "escribir código por sí mismos", la transición de Vibe Coding a Agentic Engineering

2/26/2026
5 min read

GLM-5: cuando los grandes modelos aprenden a "escribir código por sí mismos", la transición de Vibe Coding a Agentic Engineering

🎯 Resumen en una frase: Zhizhu AI, en colaboración con la Universidad de Tsinghua, ha lanzado el modelo GLM-5 con 744B de parámetros, que utiliza DeepSeek Sparse Attention (DSA) para reducir la carga computacional de la atención, aprendizaje por refuerzo totalmente asíncrono (Async RL) para mejorar la eficiencia del entrenamiento en tareas largas, y un proceso de post-entrenamiento en múltiples etapas, permitiendo que el gran modelo evolucione de "Vibe Coding" a "ingeniero agente" (Agentic Engineering) capaz de completar proyectos de ingeniería reales de manera independiente.

¿Por qué es necesario este artículo?

Andrej Karpathy propuso a principios de 2025 un concepto interesante: Vibe Coding, que significa que solo necesitas describir tus necesidades en lenguaje natural y dejar que la IA escriba el código "basándose en la intuición". Esta es, de hecho, la experiencia principal de la programación con IA en la actualidad: dices una frase y el modelo genera un fragmento de código, cuyo éxito depende completamente de la suerte.

Pero surge el problema: la ingeniería de software real es mucho más que "escribir código". Un verdadero ingeniero necesita entender la arquitectura del proyecto, depurar errores, gestionar dependencias y manejar la colaboración entre módulos; todo esto no se puede resolver con "una solicitud genera un fragmento de código". El objetivo de este artículo sobre GLM-5 es transformar el modelo de "asistente que te ayuda a escribir código" a "ingeniero capaz de manejar todo el proyecto de forma independiente".

Este no es un objetivo pequeño. Para lograrlo, el equipo de Zhizhu ha realizado numerosas innovaciones en la arquitectura del modelo, el proceso de entrenamiento y los algoritmos de aprendizaje por refuerzo. Esta interpretación te llevará a desglosar estos detalles técnicos.

Contribuciones clave: tres pilares

Antes de profundizar en los detalles, aclaremos las tres contribuciones clave de GLM-5:

ContribuciónProblema que resuelveIdea centralAtención escasa DSACostos computacionales explosivos de 128K de contextoSelecciona dinámicamente tokens importantes, omitiendo los irrelevantes, ahorrando 1.5-2 veces la potencia de cálculoMarco de aprendizaje por refuerzo asíncronoGPU inactivas durante el entrenamiento RL de tareas largasDesacopla completamente generación y entrenamiento, permitiendo paralelismo en tuberíasProceso de post-entrenamiento en múltiples etapasDificultad para equilibrar múltiples capacidades como inferencia, codificación y agenteSFT → Inferencia RL → Agente RL → RL general, acumulando capacidades gradualmente

Arquitectura del modelo: haciendo "sustracción" sobre la estructura de MoE

Configuración básica

GLM-5 utiliza una arquitectura de Mixture-of-Experts (MoE), con un total de 744B de parámetros, pero solo activa alrededor de 40B de parámetros en cada inferencia. Este diseño "grande y escaso" se ha convertido en un consenso en la industria: DeepSeek-V3/R1 y Qwen3 han seguido rutas similares.

¿Cómo funciona realmente DSA?

La idea central de DSA se puede entender con una metáfora: imagina que estás buscando información en una biblioteca. La atención estándar es como revisar cada libro de toda la biblioteca y luego decidir cuáles son útiles. En cambio, DSA es más como un bibliotecario experimentado: primero utiliza un indexador relámpago (Lightning Index) para escanear rápidamente los títulos en las estanterías, identificando algunas áreas potencialmente relevantes, y luego solo lee en profundidad los párrafos específicos de esas áreas.

Proceso de entrenamiento: "subiendo de nivel" en cuatro etapas

El proceso de entrenamiento de GLM-5 es el aspecto más destacado de este artículo, dividido en dos grandes fases: preentrenamiento y post-entrenamiento.

Fase de preentrenamiento

  • Escala de datos: 27T de tokens, con una mezcla de datos que incluye páginas web, código, artículos académicos, libros, etc.
  • Expansión del contexto: A través del entrenamiento intermedio, el contexto se expande gradualmente de 4K a 200K, utilizando ajustes de frecuencia RoPE.
  • Fase de enfriamiento: Al final del preentrenamiento, se realiza un "ajuste fino" con datos de mayor calidad.

Cuarteto de post-entrenamiento

Esta es la parte más distintiva de GLM-5. GLM-5 realizó cuatro rondas:

  • Ajuste fino supervisado (SFT) utilizando datos de instrucciones de alta calidad para el ajuste fino.
  • Aprendizaje por refuerzo de razonamiento (Reasoning RL) en tareas de razonamiento matemático y de código.
  • Aprendizaje por refuerzo de agente (Agentic RL), que es la innovación clave.
  • Aprendizaje por refuerzo general (General RL), en tareas más amplias y generales.

Aprendizaje por refuerzo asíncrono: evitando que la GPU "pierda el tiempo"

El entrenamiento tradicional de RL es sincrónico: recopila un lote de datos → calcula recompensas → actualiza el modelo → vuelve a recopilar. Esto no es un problema en tareas de corta duración, pero las tareas de agente a menudo requieren decenas de pasos de interacción.

Interpretación profunda de los resultados experimentales

Comparación de principales benchmarks

BenchmarkGLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9

Resumen

El artículo sobre GLM-5 contiene una gran cantidad de información. Sin entrar en los números específicos, el mensaje central que transmite es: el próximo campo de batalla de los grandes modelos está en "hacer trabajo" y no solo en "responder preguntas".

Desde una perspectiva competitiva, GLM-5 demuestra la competitividad del equipo de IA de China en la investigación de vanguardia de grandes modelos.

Información del artículo

Published in Technology

You Might Also Like