¿Quieres entender el agente inteligente Codex? ¡No te puedes perder este análisis profundo!

2/14/2026
5 min read

¿Quieres entender el agente inteligente Codex? ¡No te puedes perder este análisis profundo!

OpenAI acaba de hacer algo "inusual".

Normalmente, OpenAI publicaría modelos más potentes (como o1), pero esta vez, publicaron un blog técnico profundo, 《Unrolling the Codex agent loop》, no solo abrieron el código de la lógica central de Codex CLI, sino que también desglosaron paso a paso cómo funciona un agente de código (Coding Agent) maduro.

Codex CLI

En el momento en que Claude Code y Cursor están ganando popularidad, este artículo de OpenAI no solo muestra su poder, sino que también es una "guía para evitar errores para arquitectos de agentes". Ya sea que quieras usar bien las herramientas de programación de IA o quieras desarrollar tu propio Agent, vale la pena estudiar este artículo palabra por palabra.

El texto completo tiene más de 8300 palabras y la lectura tomará aproximadamente 20 minutos.

Primero, ¿qué es Codex CLI?

Codex CLI es una herramienta de agente de codificación de código abierto producida por OpenAI, que se puede ejecutar en una computadora local o instalar en un editor de código. Admite VS Code, Cursor, Windsurf, etc.

Dirección de código abierto: https://github.com/openai/codex

Codex CLI界面

El Agent Loop (bucle de agente) que se presentará esta vez es la lógica central de Codex CLI: es responsable de coordinar al usuario, el modelo y las llamadas al modelo para ejecutar interacciones valiosas entre herramientas.

Agent Loop (bucle de agente inteligente)

El modelo es solo un componente, el Agent (agente inteligente) puede constituir un producto.

El núcleo de cada AI Agent es el llamado "bucle de agente inteligente (Agent Loop)". El diagrama esquemático del bucle de agente inteligente se muestra a continuación:

Agent Loop示意图

Normalmente pensamos que la programación con IA es: "Yo pregunto, él responde". Pero dentro de Codex CLI, este es un proceso de bucle infinito complejo...

Un Agent Loop estándar contiene los siguientes pasos:

  • Instrucciones del usuario: un conjunto de instrucciones de texto ingresadas por el usuario (por ejemplo, "refactorizar esta función").
  • Inferencia del modelo: el modelo decide si responder directamente o llamar a una herramienta (Tool Call).
  • Llamada a la herramienta: si el modelo decide llamar a list files o run shell, CLI ejecutará estos comandos localmente.
  • Observación (Observation): se capturan los resultados de la ejecución de la herramienta (código, errores, lista de archivos).
  • Bucle: estos resultados se agregan al historial de conversación y se vuelven a alimentar al modelo. Después de ver los resultados, el modelo decide el siguiente paso.
  • Terminación: hasta que el modelo considere que la tarea está completa, se genera la respuesta final.

Todo el proceso desde la "entrada del usuario" hasta la "respuesta del agente inteligente" se denomina ronda de conversación (en Codex se denomina hilo).

Multi-turn Agent loop

A medida que avanza la conversación, la longitud del prompt utilizado para inferir el modelo también aumenta. Esta longitud es importante porque cada modelo tiene una ventana de contexto, que representa el número máximo de tokens que el modelo puede usar en una sola llamada de inferencia.

Inferencia del modelo

Codex CLI envía una solicitud HTTP a la Responses API para la inferencia del modelo. Codex utiliza la Responses API para impulsar el bucle del agente.

¿Qué es la Responses API?

Responses API es una interfaz de desarrollo de agentes inteligentes de nueva generación lanzada por OpenAI en marzo de 2025, cuyo objetivo es unificar las capacidades de conversación, llamada de herramientas y procesamiento multimodal, para brindar a los desarrolladores una experiencia de construcción de aplicaciones de IA más flexible y potente.

El punto final de la Responses API utilizado por Codex CLI es configurable y se puede utilizar con cualquier punto final que implemente la Responses API.

Prompt构建流程

El modelo realiza el muestreo (genera una respuesta)

La solicitud HTTP iniciada a la Responses API inicia el primer "turno" en la conversación de Codex. El servidor devuelve la respuesta en streaming a través de Server-Sent Events (SSE).

后续提示词结构

Ten en cuenta que el prompt de la ronda anterior es el prefijo exacto del nuevo prompt. Este diseño puede mejorar significativamente la eficiencia de las solicitudes posteriores: se puede utilizar el mecanismo de caché de prompts.

多轮对话提示词增长

El impacto del aumento continuo de los prompts con el aumento de las rondas

1. En términos de rendimiento

  • Aumento del costo de muestreo del modelo: la extensión continua del prompt aumentará el costo de muestreo del modelo, porque el proceso de muestreo necesita procesar más datos, lo que resulta en un aumento en la cantidad de cálculo.
  • Disminución de la eficiencia del caché: a medida que el prompt se extiende continuamente con el aumento de las rondas, la dificultad de la coincidencia de prefijos exactos aumenta y la probabilidad de aciertos de caché disminuye.

2. En términos de gestión de la ventana de contexto

  • La ventana de contexto se agota fácilmente: la extensión continua del prompt hará que la cantidad de tokens en la conversación aumente rápidamente, y una vez que exceda el umbral de la ventana de contexto, puede provocar que la ventana de contexto se agote.
  • Aumento de la necesidad de operaciones de compresión: para evitar que la ventana de contexto se agote, es necesario comprimir la conversación cuando la cantidad de tokens exceda el umbral.

3. En términos de riesgo de fallos de caché

  • Múltiples operaciones pueden provocar fallos de caché: si se realizan operaciones como cambiar las herramientas disponibles del modelo, el modelo de destino, la configuración del sandbox, etc. debido a la extensión del prompt, aumentará aún más el riesgo de fallos de caché.
  • La herramienta MCP aumenta la complejidad: el servidor MCP puede cambiar dinámicamente la lista de herramientas proporcionadas, y responder a las notificaciones relevantes en conversaciones largas puede provocar fallos de caché.

Información de referencia: 《Unrolling the Codex agent loop》Fuente: OpenAI

Published in Technology

You Might Also Like