GLM-5: quando grandes modelos aprendem a "escrever código sozinhos", a transição de Vibe Coding para Engenharia Agentic

2/26/2026
5 min read

GLM-5: quando grandes modelos aprendem a "escrever código sozinhos", a transição de Vibe Coding para Engenharia Agentic

🎯 Resumo em uma frase: A Zhizhu AI, em colaboração com a Universidade Tsinghua, lançou o modelo GLM-5 com 744B de parâmetros, utilizando a DeepSeek Sparse Attention (DSA) para reduzir a carga computacional de atenção, aprendizado por reforço totalmente assíncrono (Async RL) para resolver a eficiência de treinamento em tarefas longas, e um processo de pós-treinamento em múltiplas fases, permitindo que grandes modelos evoluam de "Vibe Coding" para "Engenheiros Agentic" que podem completar projetos de engenharia reais de forma independente.

Por que precisamos deste artigo?

Andrej Karpathy apresentou um conceito interessante no início de 2025 - Vibe Coding, que significa que você só precisa descrever suas necessidades em linguagem natural e "deixar a intuição" fazer com que a IA escreva o código. Esta é, de fato, a experiência principal de programação com IA atualmente: você diz uma frase, e o modelo gera um trecho de código, cuja eficácia depende da sorte.

Mas o problema surge: a engenharia de software real é muito mais do que "escrever código". Um verdadeiro engenheiro precisa entender a arquitetura do projeto, depurar erros, gerenciar dependências, lidar com colaboração entre módulos - nada disso pode ser resolvido com "uma prompt gerando um trecho de código". O que o artigo GLM-5 pretende fazer é transformar o modelo de "assistente que escreve código" para "engenheiro que pode resolver todo o projeto de forma independente".

Esse não é um pequeno objetivo. Para alcançá-lo, a equipe da Zhizhu fez muitas inovações na arquitetura do modelo, no processo de treinamento e nos algoritmos de aprendizado por reforço. Esta interpretação irá detalhar esses aspectos técnicos.

Contribuições principais: três pilares

Antes de entrar nos detalhes, vamos esclarecer as três contribuições principais do GLM-5:

Contribuição | Problema Resolvido | Ideia Central DSA Sparse Attention | Custo computacional explosivo de 128K de contexto longo | Seleciona dinamicamente tokens importantes, pulando os irrelevantes, economizando 1.5-2 vezes a capacidade computacional Estrutura de Aprendizado por Reforço Assíncrono | Treinamento RL de tarefas longas com GPU frequentemente ociosa | Geração e treinamento completamente desacoplados, paralelização em pipeline Processo de Pós-Treinamento em Múltiplas Fases | Dificuldade em equilibrar múltiplas capacidades como raciocínio, codificação e agente | SFT → Raciocínio RL → Agente RL → RL Geral, acumulando capacidades gradualmente

Arquitetura do Modelo: Fazendo "subtração" sobre a estrutura MoE

Configuração Básica

O GLM-5 adota a arquitetura Mixture-of-Experts (MoE), com um total de 744B de parâmetros, mas ativa apenas cerca de 40B de parâmetros em cada inferência. Este design "grande e esparso" já se tornou um consenso na indústria - DeepSeek-V3/R1, Qwen3 seguiram rotas semelhantes.

Como o DSA realmente funciona?

A ideia central do DSA pode ser entendida com uma metáfora: imagine que você está procurando informações em uma biblioteca. A atenção padrão é como folhear todos os livros da biblioteca e decidir quais são úteis. Já o DSA é mais como um bibliotecário experiente - ele primeiro usa um Indexador Relâmpago (Lightning Index) para escanear rapidamente os títulos nas prateleiras, identificando algumas áreas possivelmente relevantes, e então lê atentamente apenas os parágrafos específicos dessas áreas.

Processo de Treinamento: Quatro etapas de "evolução"

O processo de treinamento do GLM-5 é o destaque deste artigo, dividido em duas grandes fases: pré-treinamento e pós-treinamento.

Fase de Pré-Treinamento

  • Escala de Dados: 27T de tokens, com uma mistura de dados que inclui páginas da web, código, artigos acadêmicos, livros, etc.
  • Expansão de Contexto: Através de treinamento intermediário, o contexto é gradualmente expandido de 4K para 200K, usando ajuste de frequência RoPE.
  • Fase de Aninhamento: No final do pré-treinamento, dados de maior qualidade são usados para "refinamento".

Quatro Etapas do Pós-Treinamento

Esta é a parte mais característica do GLM-5. O GLM-5 passou por quatro rodadas:

  • Ajuste Fino Supervisionado (SFT) usando dados de instrução de alta qualidade para ajuste fino.
  • Aprendizado por Reforço de Raciocínio (Reasoning RL) em tarefas de raciocínio matemático e de código.
  • Aprendizado por Reforço de Agente (Agentic RL), esta é a inovação chave.
  • Aprendizado por Reforço Geral (General RL), em tarefas gerais mais amplas.

Aprendizado por Reforço Assíncrono: Fazendo com que a GPU não "perca tempo"

O treinamento tradicional de RL é síncrono: coleta um lote de dados → calcula recompensas → atualiza o modelo → coleta novamente. Isso não é um problema em tarefas de curto prazo, mas tarefas de agentes frequentemente requerem dezenas de interações.

Interpretação Profunda dos Resultados Experimentais

Comparação de Principais Referências

Referência | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro 78.0 | 75.9 | 78.0 | 74.3 | 76.1 GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9

Conclusão

O artigo GLM-5 contém uma grande quantidade de informações. Deixando de lado os números específicos, a mensagem central que transmite é: o próximo campo de batalha dos grandes modelos está em "trabalhar" e não apenas em "responder perguntas".

Em termos de competição, o GLM-5 prova a competitividade da equipe de IA da China na pesquisa de ponta de grandes modelos.

Informações do Artigo

Published in Technology

You Might Also Like