Quer entender o agente inteligente Codex? Esta análise aprofundada é imperdível!
Quer entender o agente inteligente Codex? Esta análise aprofundada é imperdível!
A OpenAI acabou de fazer algo "incomum".
Normalmente, a OpenAI lança modelos mais poderosos (como o1), mas desta vez, eles publicaram um blog técnico aprofundado, "Unrolling the Codex agent loop" (Desenrolando o loop do agente Codex), não apenas abrindo o código da lógica central do Codex CLI, mas também desmontando passo a passo como um agente de código inteligente (Coding Agent) maduro realmente funciona.

No momento em que Claude Code e Cursor estão ganhando popularidade freneticamente, este artigo da OpenAI não é apenas uma demonstração de força, mas também um "guia para evitar armadilhas para arquitetos de agentes". Se você quer usar bem as ferramentas de programação de IA ou desenvolver seu próprio Agente, este artigo vale a pena ser lido palavra por palavra.
O texto completo tem mais de 8300 palavras e leva cerca de 20 minutos para ler.
Primeiro, o que é o Codex CLI?
Codex CLI é uma ferramenta de Agente de codificação de código aberto produzida pela OpenAI, que pode ser executada em um computador local ou instalada em um editor de código. Suporta VS Code, Cursor, Windsurf, etc.
Endereço de código aberto: https://github.com/openai/codex

E o Agent Loop (Ciclo do Agente) a ser introduzido desta vez é a lógica central do Codex CLI: responsável por coordenar o usuário, o modelo e a chamada do modelo, a fim de executar interações valiosas entre as ferramentas.
Agent Loop (Ciclo do Agente Inteligente)
O modelo é apenas um componente, o Agente (Inteligente) pode constituir um produto.
O núcleo de cada Agente de IA é o chamado "ciclo do agente (Agent Loop)". O diagrama esquemático do ciclo do agente é mostrado abaixo:

Normalmente pensamos que a programação de IA é: "Eu pergunto, ele responde". Mas dentro do Codex CLI, este é um processo complexo de loop infinito...
Um Agent Loop padrão inclui as seguintes etapas:
- Instruções do usuário: um conjunto de instruções de texto inseridas pelo usuário (por exemplo, "refatore esta função").
- Inferência do modelo: o modelo decide se responde diretamente ou chama uma ferramenta (Tool Call).
- Chamada de ferramenta: se o modelo decidir chamar list files ou run shell, o CLI executará esses comandos localmente.
- Observação (Observation): o resultado da execução da ferramenta (código, erro, lista de arquivos) é capturado.
- Ciclo: esses resultados são adicionados ao histórico de conversas e alimentados novamente ao modelo. Depois de ver os resultados, o modelo decide a próxima operação.
- Término: até que o modelo considere a tarefa concluída e produza a resposta final.
Todo o processo de "entrada do usuário" para "resposta do agente inteligente" é chamado de rodada de conversa (chamada de thread no Codex).

À medida que a conversa avança, o comprimento do prompt usado para inferir o modelo também aumenta. Esse comprimento é importante porque cada modelo tem uma janela de contexto, que representa o número máximo de tokens que o modelo pode usar em uma única chamada de inferência.
Inferência do modelo
O Codex CLI envia uma solicitação HTTP para a API Responses para inferência de modelo. O Codex usa a API Responses para conduzir o loop do agente.
O que é a API Responses?
A API Responses é uma interface de desenvolvimento de agente de nova geração lançada pela OpenAI em março de 2025, com o objetivo de unificar conversas, chamadas de ferramentas e recursos de processamento multimodal, fornecendo aos desenvolvedores uma experiência de construção de aplicativos de IA mais flexível e poderosa.
O ponto de extremidade da API Responses usado pelo Codex CLI é configurável e pode ser usado com qualquer ponto de extremidade que implemente a API Responses.

O modelo realiza a amostragem (gera resposta)
A solicitação HTTP iniciada para a API Responses inicia a primeira "rodada" na conversa do Codex. O servidor retorna a resposta em fluxo por meio de Server-Sent Events (SSE).

Observe que o prompt da rodada anterior é o prefixo exato do novo prompt. Este design pode melhorar significativamente a eficiência das solicitações subsequentes - o mecanismo de cache de prompt pode ser usado.

O impacto do aumento contínuo do prompt com o aumento das rodadas
1. Em termos de desempenho
- Aumento do custo de amostragem do modelo: o alongamento contínuo do prompt aumentará o custo de amostragem do modelo, porque o processo de amostragem precisa processar mais dados, resultando em um aumento na quantidade de cálculo.
- Redução dos benefícios do cache: à medida que o prompt se estende continuamente com o aumento das rodadas, a dificuldade de correspondência exata do prefixo aumenta e a probabilidade de acertos de cache diminui.
2. Em termos de gerenciamento da janela de contexto
- Janela de contexto fácil de esgotar: o alongamento contínuo do prompt fará com que o número de tokens na conversa aumente rapidamente e, uma vez que o limite da janela de contexto seja excedido, pode levar ao esgotamento da janela de contexto.
- Aumento da necessidade de operações de compressão: para evitar o esgotamento da janela de contexto, a conversa precisa ser compactada quando o número de tokens exceder o limite.
3. Em termos de risco de falha de cache
- Várias operações podem facilmente causar falha de cache: se as operações como alterar as ferramentas disponíveis do modelo, o modelo de destino, a configuração da sandbox, etc. estiverem envolvidas devido ao alongamento do prompt, o risco de falha de cache aumentará ainda mais.
- As ferramentas MCP aumentam a complexidade: o servidor MCP pode alterar dinamicamente a lista de ferramentas fornecidas e responder às notificações relevantes em conversas longas pode levar a falhas de cache.
Informações de referência: "Unrolling the Codex agent loop" Fonte: OpenAI





