Quer entender o agente inteligente Codex? Esta análise aprofundada é imperdível!

A OpenAI acabou de fazer algo "incomum".

Normalmente, a OpenAI lança modelos mais poderosos (como o1), mas desta vez, eles publicaram um blog técnico aprofundado, "Unrolling the Codex agent loop" (Desenrolando o loop do agente Codex), não apenas abrindo o código da lógica central do Codex CLI, mas também desmontando passo a passo como um agente de código inteligente (Coding Agent) maduro realmente funciona.

Codex CLI

No momento em que Claude Code e Cursor estão ganhando popularidade freneticamente, este artigo da OpenAI não é apenas uma demonstração de força, mas também um "guia para evitar armadilhas para arquitetos de agentes". Se você quer usar bem as ferramentas de programação de IA ou desenvolver seu próprio Agente, este artigo vale a pena ser lido palavra por palavra.

O texto completo tem mais de 8300 palavras e leva cerca de 20 minutos para ler.

Primeiro, o que é o Codex CLI?

Codex CLI é uma ferramenta de Agente de codificação de código aberto produzida pela OpenAI, que pode ser executada em um computador local ou instalada em um editor de código. Suporta VS Code, Cursor, Windsurf, etc.

Endereço de código aberto: https://github.com/openai/codex

Codex CLI界面

E o Agent Loop (Ciclo do Agente) a ser introduzido desta vez é a lógica central do Codex CLI: responsável por coordenar o usuário, o modelo e a chamada do modelo, a fim de executar interações valiosas entre as ferramentas.

Agent Loop (Ciclo do Agente Inteligente)

O modelo é apenas um componente, o Agente (Inteligente) pode constituir um produto.

O núcleo de cada Agente de IA é o chamado "ciclo do agente (Agent Loop)". O diagrama esquemático do ciclo do agente é mostrado abaixo:

Agent Loop示意图

Normalmente pensamos que a programação de IA é: "Eu pergunto, ele responde". Mas dentro do Codex CLI, este é um processo complexo de loop infinito...

Um Agent Loop padrão inclui as seguintes etapas:

Instruções do usuário: um conjunto de instruções de texto inseridas pelo usuário (por exemplo, "refatore esta função").
Inferência do modelo: o modelo decide se responde diretamente ou chama uma ferramenta (Tool Call).
Chamada de ferramenta: se o modelo decidir chamar list files ou run shell, o CLI executará esses comandos localmente.
Observação (Observation): o resultado da execução da ferramenta (código, erro, lista de arquivos) é capturado.
Ciclo: esses resultados são adicionados ao histórico de conversas e alimentados novamente ao modelo. Depois de ver os resultados, o modelo decide a próxima operação.
Término: até que o modelo considere a tarefa concluída e produza a resposta final.

Todo o processo de "entrada do usuário" para "resposta do agente inteligente" é chamado de rodada de conversa (chamada de thread no Codex).

Multi-turn Agent loop

À medida que a conversa avança, o comprimento do prompt usado para inferir o modelo também aumenta. Esse comprimento é importante porque cada modelo tem uma janela de contexto, que representa o número máximo de tokens que o modelo pode usar em uma única chamada de inferência.

Inferência do modelo

O Codex CLI envia uma solicitação HTTP para a API Responses para inferência de modelo. O Codex usa a API Responses para conduzir o loop do agente.

O que é a API Responses?

A API Responses é uma interface de desenvolvimento de agente de nova geração lançada pela OpenAI em março de 2025, com o objetivo de unificar conversas, chamadas de ferramentas e recursos de processamento multimodal, fornecendo aos desenvolvedores uma experiência de construção de aplicativos de IA mais flexível e poderosa.

O ponto de extremidade da API Responses usado pelo Codex CLI é configurável e pode ser usado com qualquer ponto de extremidade que implemente a API Responses.

Prompt构建流程

O modelo realiza a amostragem (gera resposta)

A solicitação HTTP iniciada para a API Responses inicia a primeira "rodada" na conversa do Codex. O servidor retorna a resposta em fluxo por meio de Server-Sent Events (SSE).

后续提示词结构

Observe que o prompt da rodada anterior é o prefixo exato do novo prompt. Este design pode melhorar significativamente a eficiência das solicitações subsequentes - o mecanismo de cache de prompt pode ser usado.

多轮对话提示词增长

O impacto do aumento contínuo do prompt com o aumento das rodadas

1. Em termos de desempenho

Aumento do custo de amostragem do modelo: o alongamento contínuo do prompt aumentará o custo de amostragem do modelo, porque o processo de amostragem precisa processar mais dados, resultando em um aumento na quantidade de cálculo.
Redução dos benefícios do cache: à medida que o prompt se estende continuamente com o aumento das rodadas, a dificuldade de correspondência exata do prefixo aumenta e a probabilidade de acertos de cache diminui.

2. Em termos de gerenciamento da janela de contexto

Janela de contexto fácil de esgotar: o alongamento contínuo do prompt fará com que o número de tokens na conversa aumente rapidamente e, uma vez que o limite da janela de contexto seja excedido, pode levar ao esgotamento da janela de contexto.
Aumento da necessidade de operações de compressão: para evitar o esgotamento da janela de contexto, a conversa precisa ser compactada quando o número de tokens exceder o limite.

3. Em termos de risco de falha de cache

Várias operações podem facilmente causar falha de cache: se as operações como alterar as ferramentas disponíveis do modelo, o modelo de destino, a configuração da sandbox, etc. estiverem envolvidas devido ao alongamento do prompt, o risco de falha de cache aumentará ainda mais.
As ferramentas MCP aumentam a complexidade: o servidor MCP pode alterar dinamicamente a lista de ferramentas fornecidas e responder às notificações relevantes em conversas longas pode levar a falhas de cache.

Informações de referência: "Unrolling the Codex agent loop" Fonte: OpenAI

Quer entender o agente inteligente Codex? Esta análise aprofundada é imperdível!

Quer entender o agente inteligente Codex? Esta análise aprofundada é imperdível!

Primeiro, o que é o Codex CLI?

Agent Loop (Ciclo do Agente Inteligente)

Inferência do modelo

O modelo realiza a amostragem (gera resposta)

O impacto do aumento contínuo do prompt com o aumento das rodadas

1. Em termos de desempenho

2. Em termos de gerenciamento da janela de contexto

3. Em termos de risco de falha de cache

You Might Also Like

Guia de Modificação do Claude Code Buddy: Como Obter um Pet Lendário Brilhante

Obsidian lançou Defuddle, elevando o Obsidian Web Clipper a um novo patamar

OpenAI de repente anuncia "três em um": fusão de navegador + programação + ChatGPT, admitindo internamente que errou no último ano

2026, não se force mais a ser "disciplinado"! Faça estas 8 pequenas coisas e a saúde virá naturalmente

Aquelas mães que se esforçam para emagrecer e não conseguem, definitivamente caem aqui

Guia de Funcionamento Estável do Navegador AI 24 Horas