GLM-5: quando grandes modelos aprendem a "escrever código por conta própria", a transição de Vibe Coding para Engenharia Agentic
GLM-5: quando grandes modelos aprendem a "escrever código por conta própria", a transição de Vibe Coding para Engenharia Agentic
❝
🎯 Resumo em uma frase: A Zhizhu AI, em colaboração com a Universidade Tsinghua, lançou o modelo GLM-5 com 744 bilhões de parâmetros, utilizando a atenção esparsa DeepSeek (DSA) para reduzir a carga computacional da atenção, aprendizado por reforço totalmente assíncrono (Async RL) para resolver a eficiência do treinamento em tarefas longas, e um processo de pós-treinamento em múltiplas etapas, permitindo que grandes modelos evoluam de "Vibe Coding" para "Engenheiro Agente".
Por que precisamos deste artigo?
Andrej Karpathy apresentou um conceito interessante no início de 2025 - Vibe Coding, que significa que você só precisa descrever suas necessidades em linguagem natural e "deixar a intuição" fazer a IA escrever o código. Esta é, de fato, a experiência predominante na programação com IA atualmente: você diz uma frase, e o modelo gera um trecho de código, com a qualidade dependendo da sorte.
Mas o problema surge: engenharia de software real é muito mais do que "escrever código". Um verdadeiro engenheiro precisa entender a arquitetura do projeto, depurar erros, gerenciar dependências e lidar com a colaboração entre módulos - nada disso pode ser resolvido apenas com "um prompt gera um código". O que este artigo sobre GLM-5 pretende fazer é transformar o modelo de "assistente que escreve código" em "engenheiro que pode resolver todo o projeto de forma independente".
Este não é um pequeno objetivo. Para alcançá-lo, a equipe da Zhizhu fez muitas inovações na arquitetura do modelo, no processo de treinamento e nos algoritmos de aprendizado por reforço. Esta interpretação irá detalhar esses aspectos técnicos.
Contribuições principais: três pilares
Antes de mergulhar nos detalhes, vamos esclarecer as três contribuições principais do GLM-5:
Contribuição Problema que resolve Ideia central Atenção esparsa DSA Custo computacional explosivo de 128K de contexto longo Seleciona dinamicamente tokens importantes, pulando os irrelevantes, economizando 1,5 a 2 vezes a capacidade computacional Estrutura de aprendizado por reforço assíncrono Grande ociosidade da GPU durante o treinamento de RL em tarefas longas Desacopla geração e treinamento completamente, permitindo paralelismo em pipeline Processo de pós-treinamento em múltiplas etapas Dificuldade em equilibrar múltiplas capacidades como inferência, codificação e agente SFT → inferência RL → agente RL → RL geral, acumulando capacidades gradualmente
Arquitetura do modelo: fazendo "subtração" sobre a estrutura MoE
Configuração básica
O GLM-5 adota a arquitetura Mixture-of-Experts (MoE), com um total de 744 bilhões de parâmetros, mas ativa apenas cerca de 40 bilhões de parâmetros durante cada inferência. Este design "grande e esparso" já se tornou um consenso na indústria - DeepSeek-V3/R1, Qwen3 seguiram rotas semelhantes.
Como o DSA realmente funciona?
A ideia central do DSA pode ser entendida com uma metáfora: imagine que você está procurando informações em uma biblioteca. Atenção padrão é como folhear todos os livros da biblioteca e decidir quais são úteis. Já o DSA é mais como um bibliotecário experiente - ele primeiro usa um Indexador Relâmpago (Lightning Index) para escanear rapidamente os títulos nas prateleiras, identificando algumas áreas possivelmente relevantes, e então lê detalhadamente apenas os parágrafos dessas áreas.
Processo de treinamento: "subindo de nível" em quatro etapas
O processo de treinamento do GLM-5 é o destaque deste artigo, dividido em duas grandes fases: pré-treinamento e pós-treinamento.
Fase de pré-treinamento
- Escala de dados: 27T de tokens, com uma mistura de dados que inclui páginas da web, código, artigos acadêmicos, livros, etc.
- Expansão de contexto: através do treinamento intermediário, o contexto é gradualmente expandido de 4K para 200K, usando ajustes de frequência RoPE.
- Fase de resfriamento: no final do pré-treinamento, dados de maior qualidade são usados para "refinar".
Quatro etapas do pós-treinamento
Esta é a parte mais característica do GLM-5. O GLM-5 passou por quatro rodadas:
- Ajuste fino supervisionado (SFT) com dados de instrução de alta qualidade.
- Aprendizado por reforço de raciocínio (Reasoning RL) em tarefas de raciocínio matemático e de código.
- Aprendizado por reforço de agente (Agentic RL), esta é a inovação chave.
- Aprendizado por reforço geral (General RL), em tarefas gerais mais amplas.
Aprendizado por reforço assíncrono: fazendo a GPU parar de "perder tempo"
O treinamento tradicional de RL é síncrono: coleta um lote de dados → calcula recompensas → atualiza o modelo → coleta novamente. Isso não é um problema quando o tempo da tarefa é curto, mas tarefas de agente frequentemente requerem dezenas de interações.
Interpretação profunda dos resultados experimentais
Comparação de principais benchmarks
Benchmark GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9
Conclusão
O artigo sobre GLM-5 contém uma grande quantidade de informações. Deixando de lado os números específicos, a mensagem central que ele transmite é: o próximo campo de batalha dos grandes modelos está em "trabalhar" e não apenas em "responder perguntas".
Em termos de competição, o GLM-5 prova a competitividade das equipes de IA da China na pesquisa de ponta em grandes modelos.
Informações do artigo
- Título: GLM-5: from Vibe Coding to Agentic Engineering
- Instituição: Zhizhu AI & Universidade Tsinghua
- Link: https://arxiv.org/abs/2602.15763

