GLM-5: quando grandes modelos aprendem a "escrever código por conta própria", a transição de Vibe Coding para Engenharia Agentic

2/26/2026
5 min read

GLM-5: quando grandes modelos aprendem a "escrever código por conta própria", a transição de Vibe Coding para Engenharia Agentic

🎯 Resumo em uma frase: A Zhizhu AI, em colaboração com a Universidade Tsinghua, lançou o modelo GLM-5 com 744 bilhões de parâmetros, utilizando a atenção esparsa DeepSeek (DSA) para reduzir a carga computacional da atenção, aprendizado por reforço totalmente assíncrono (Async RL) para resolver a eficiência do treinamento em tarefas longas, e um processo de pós-treinamento em múltiplas etapas, permitindo que grandes modelos evoluam de "Vibe Coding" para "Engenheiro Agente".

Por que precisamos deste artigo?

Andrej Karpathy apresentou um conceito interessante no início de 2025 - Vibe Coding, que significa que você só precisa descrever suas necessidades em linguagem natural e "deixar a intuição" fazer a IA escrever o código. Esta é, de fato, a experiência predominante na programação com IA atualmente: você diz uma frase, e o modelo gera um trecho de código, com a qualidade dependendo da sorte.

Mas o problema surge: engenharia de software real é muito mais do que "escrever código". Um verdadeiro engenheiro precisa entender a arquitetura do projeto, depurar erros, gerenciar dependências e lidar com a colaboração entre módulos - nada disso pode ser resolvido apenas com "um prompt gera um código". O que este artigo sobre GLM-5 pretende fazer é transformar o modelo de "assistente que escreve código" em "engenheiro que pode resolver todo o projeto de forma independente".

Este não é um pequeno objetivo. Para alcançá-lo, a equipe da Zhizhu fez muitas inovações na arquitetura do modelo, no processo de treinamento e nos algoritmos de aprendizado por reforço. Esta interpretação irá detalhar esses aspectos técnicos.

Contribuições principais: três pilares

Antes de mergulhar nos detalhes, vamos esclarecer as três contribuições principais do GLM-5:

Contribuição Problema que resolve Ideia central Atenção esparsa DSA Custo computacional explosivo de 128K de contexto longo Seleciona dinamicamente tokens importantes, pulando os irrelevantes, economizando 1,5 a 2 vezes a capacidade computacional Estrutura de aprendizado por reforço assíncrono Grande ociosidade da GPU durante o treinamento de RL em tarefas longas Desacopla geração e treinamento completamente, permitindo paralelismo em pipeline Processo de pós-treinamento em múltiplas etapas Dificuldade em equilibrar múltiplas capacidades como inferência, codificação e agente SFT → inferência RL → agente RL → RL geral, acumulando capacidades gradualmente

Arquitetura do modelo: fazendo "subtração" sobre a estrutura MoE

Configuração básica

O GLM-5 adota a arquitetura Mixture-of-Experts (MoE), com um total de 744 bilhões de parâmetros, mas ativa apenas cerca de 40 bilhões de parâmetros durante cada inferência. Este design "grande e esparso" já se tornou um consenso na indústria - DeepSeek-V3/R1, Qwen3 seguiram rotas semelhantes.

Como o DSA realmente funciona?

A ideia central do DSA pode ser entendida com uma metáfora: imagine que você está procurando informações em uma biblioteca. Atenção padrão é como folhear todos os livros da biblioteca e decidir quais são úteis. Já o DSA é mais como um bibliotecário experiente - ele primeiro usa um Indexador Relâmpago (Lightning Index) para escanear rapidamente os títulos nas prateleiras, identificando algumas áreas possivelmente relevantes, e então lê detalhadamente apenas os parágrafos dessas áreas.

Processo de treinamento: "subindo de nível" em quatro etapas

O processo de treinamento do GLM-5 é o destaque deste artigo, dividido em duas grandes fases: pré-treinamento e pós-treinamento.

Fase de pré-treinamento

  • Escala de dados: 27T de tokens, com uma mistura de dados que inclui páginas da web, código, artigos acadêmicos, livros, etc.
  • Expansão de contexto: através do treinamento intermediário, o contexto é gradualmente expandido de 4K para 200K, usando ajustes de frequência RoPE.
  • Fase de resfriamento: no final do pré-treinamento, dados de maior qualidade são usados para "refinar".

Quatro etapas do pós-treinamento

Esta é a parte mais característica do GLM-5. O GLM-5 passou por quatro rodadas:

  • Ajuste fino supervisionado (SFT) com dados de instrução de alta qualidade.
  • Aprendizado por reforço de raciocínio (Reasoning RL) em tarefas de raciocínio matemático e de código.
  • Aprendizado por reforço de agente (Agentic RL), esta é a inovação chave.
  • Aprendizado por reforço geral (General RL), em tarefas gerais mais amplas.

Aprendizado por reforço assíncrono: fazendo a GPU parar de "perder tempo"

O treinamento tradicional de RL é síncrono: coleta um lote de dados → calcula recompensas → atualiza o modelo → coleta novamente. Isso não é um problema quando o tempo da tarefa é curto, mas tarefas de agente frequentemente requerem dezenas de interações.

Interpretação profunda dos resultados experimentais

Comparação de principais benchmarks

Benchmark GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9

Conclusão

O artigo sobre GLM-5 contém uma grande quantidade de informações. Deixando de lado os números específicos, a mensagem central que ele transmite é: o próximo campo de batalha dos grandes modelos está em "trabalhar" e não apenas em "responder perguntas".

Em termos de competição, o GLM-5 prova a competitividade das equipes de IA da China na pesquisa de ponta em grandes modelos.

Informações do artigo

Published in Technology

You Might Also Like