GLM-5: cuando los grandes modelos aprenden a "escribir código por sí mismos", la transición de Vibe Coding a Agentic Engineering
GLM-5: cuando los grandes modelos aprenden a "escribir código por sí mismos", la transición de Vibe Coding a Agentic Engineering
❝
🎯 Resumen en una frase: Zhipu AI, en colaboración con la Universidad Tsinghua, ha lanzado el modelo GLM-5 con 744B de parámetros, que utiliza DeepSeek Sparse Attention (DSA) para reducir la carga computacional de atención, aprendizaje por refuerzo totalmente asíncrono (Async RL) para mejorar la eficiencia del entrenamiento en tareas largas, y un proceso de post-entrenamiento en múltiples etapas, permitiendo que el gran modelo evolucione de "Vibe Coding" a "Ingeniero Agente" (Agentic Engineering) capaz de completar proyectos de ingeniería reales de manera independiente.
¿Por qué necesitamos este artículo?
Andrej Karpathy propuso a principios de 2025 un concepto interesante: Vibe Coding, que significa que solo necesitas describir tus necesidades en lenguaje natural y "dejar que la IA escriba código por instinto". Esta es, de hecho, la experiencia principal de la programación con IA en la actualidad: dices una frase y el modelo genera un fragmento de código, y la calidad depende completamente de la suerte.
Pero surge un problema: la ingeniería de software real es mucho más que "escribir código". Un verdadero ingeniero necesita entender la arquitectura del proyecto, depurar errores, gestionar dependencias y manejar la colaboración entre módulos; todo esto no se puede resolver con "una prompt que genera un código". El objetivo de este artículo sobre GLM-5 es transformar al modelo de un "asistente que te ayuda a escribir código" a un "ingeniero que puede manejar todo el proyecto de forma independiente".
Este no es un objetivo pequeño. Para lograrlo, el equipo de Zhipu ha realizado numerosas innovaciones en la arquitectura del modelo, el proceso de entrenamiento y los algoritmos de aprendizaje por refuerzo. Esta interpretación te llevará a desglosar estos detalles técnicos.
Contribuciones clave: tres herramientas principales
Antes de profundizar en los detalles, aclaremos las tres contribuciones clave de GLM-5:
Contribución | Problema que resuelve | Idea central DSA Sparse Attention | Explosión de costos computacionales en contextos largos de 128K | Selección dinámica de tokens importantes, omitiendo los irrelevantes, ahorrando 1.5-2 veces la potencia computacional Marco de Aprendizaje por Refuerzo Asíncrono | GPU inactiva durante el entrenamiento de RL en tareas largas | Generación y entrenamiento completamente desacoplados, paralelismo en forma de tubería Proceso de Post-entrenamiento en Múltiples Etapas | Dificultad para equilibrar múltiples capacidades como inferencia, codificación e inteligencia | SFT → Inferencia RL → Agente RL → RL General, acumulando capacidades gradualmente
Arquitectura del modelo: hacer "sustracción" sobre la estructura de MoE
Configuración básica
GLM-5 adopta una arquitectura de Mixture-of-Experts (MoE), con un total de 744B de parámetros, pero solo activa alrededor de 40B de parámetros en cada inferencia. Este diseño "grande y disperso" se ha convertido en un consenso en la industria; DeepSeek-V3/R1 y Qwen3 han seguido rutas similares.
¿Cómo funciona realmente DSA?
La idea central de DSA se puede entender con una metáfora: imagina que estás buscando información en una biblioteca. La atención estándar es como revisar cada libro en toda la biblioteca y luego decidir cuáles son útiles. En cambio, DSA es más como un bibliotecario experimentado: primero utiliza un Indexador Rápido (Lightning Index) para escanear rápidamente los títulos de los estantes, identificando algunas áreas potencialmente relevantes, y luego solo lee en profundidad los párrafos específicos de esas áreas.
Proceso de entrenamiento: "subir de nivel" en cuatro etapas
El proceso de entrenamiento de GLM-5 es la parte central de este artículo, dividido en dos grandes fases: pre-entrenamiento y post-entrenamiento.
Fase de pre-entrenamiento
- Escala de datos: 27T de tokens, la mezcla de datos incluye páginas web, código, artículos académicos, libros, etc.
- Expansión del contexto: a través del entrenamiento intermedio, el contexto se expande gradualmente de 4K a 200K, utilizando ajustes de frecuencia RoPE.
- Fase de enfriamiento: al final del pre-entrenamiento, se utilizan datos de mayor calidad para un "ajuste fino".
Cuarteto de post-entrenamiento
Esta es la parte más distintiva de GLM-5. GLM-5 realizó cuatro rondas:
- Ajuste fino supervisado (SFT) utilizando datos de instrucciones de alta calidad para el ajuste fino.
- Aprendizaje por refuerzo de razonamiento (Reasoning RL) en tareas de razonamiento matemático y de código.
- Aprendizaje por refuerzo de agente (Agentic RL), esta es la innovación clave.
- Aprendizaje por refuerzo general (General RL), en tareas generales más amplias.
Aprendizaje por refuerzo asíncrono: evitando que la GPU "pierda el tiempo"
El entrenamiento de RL tradicional es sincrónico: recopilar un lote de datos → calcular recompensas → actualizar el modelo → recopilar de nuevo. Esto no es un problema en tareas de corta duración, pero las tareas de agentes a menudo requieren decenas de pasos de interacción.
Análisis profundo de los resultados experimentales
Comparación de principales benchmarks
Benchmark | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9
Resumen
El artículo sobre GLM-5 está lleno de información. Más allá de los números específicos, el mensaje central que transmite es: el próximo campo de batalla de los grandes modelos está en "hacer trabajo" y no solo en "responder preguntas".
Desde una perspectiva competitiva, GLM-5 demuestra la competitividad del equipo de IA de China en la investigación de vanguardia de grandes modelos.
Información del artículo
- Título: GLM-5: from Vibe Coding to Agentic Engineering
- Institución: Zhipu AI & Universidad Tsinghua
- Enlace: https://arxiv.org/abs/2602.15763

