Vrei să înțelegi agentul inteligent Codex? Nu rata această analiză aprofundată!

OpenAI tocmai a făcut un lucru "neobișnuit".

De obicei, OpenAI lansează modele mai puternice (cum ar fi o1), dar de data aceasta, au publicat un blog tehnic aprofundat intitulat 《Unrolling the Codex agent loop》, nu numai că au făcut open source logica de bază a Codex CLI, dar au și demontat pas cu pas modul în care rulează un agent de codare (Coding Agent) matur.

Codex CLI

În contextul în care Claude Code și Cursor atrag fani în mod frenetic, acest articol OpenAI nu este doar o demonstrație de forță, ci și un "ghid de evitare a capcanelor pentru arhitecții de agenți". Indiferent dacă vrei să folosești bine instrumentele de programare AI sau vrei să-ți dezvolți propriul Agent, acest articol merită citit cu atenție.

Articolul are peste 8300 de cuvinte, iar citirea durează aproximativ 20 de minute.

În primul rând, ce este Codex CLI?

Codex CLI este un instrument Agent de codare open source produs de OpenAI, care poate fi rulat pe un computer local sau instalat într-un editor de cod. Suportă VS Code, Cursor, Windsurf etc.

Adresa open source: https://github.com/openai/codex

Interfața Codex CLI

Agent Loop (bucla agentului) care va fi prezentată de data aceasta este logica de bază a Codex CLI: este responsabilă de coordonarea utilizatorilor, a modelelor și a apelurilor de modele, pentru a efectua interacțiuni valoroase între instrumente.

Agent Loop (bucla agentului inteligent)

Modelele sunt doar componente, Agentul (agentul inteligent) poate constitui un produs.

Nucleul fiecărui AI Agent este așa-numita "buclă a agentului inteligent (Agent Loop)". Diagrama schematică a buclei agentului inteligent este prezentată mai jos:

Diagrama schematică a Agent Loop

De obicei, credem că programarea AI este: "Eu întreb, el răspunde". Dar în interiorul Codex CLI, acesta este un proces complex, infinit, ciclic...

Un Agent Loop standard include următoarele etape:

Instrucțiuni utilizator: Un set de instrucțiuni text introduse de utilizator (de exemplu, "refactorizează această funcție").
Inferență model: Modelul decide dacă să răspundă direct sau să apeleze un instrument (Tool Call).
Apelare instrument: Dacă modelul decide să apeleze list files sau run shell, CLI va executa aceste comenzi local.
Observație (Observation): Rezultatele execuției instrumentului (cod, erori, lista de fișiere) sunt capturate.
Buclă: Aceste rezultate sunt adăugate la istoricul conversației și reintroduse în model. După ce modelul vede rezultatele, decide următorul pas.
Terminare: Până când modelul consideră că sarcina este finalizată, scoate răspunsul final.

Întregul proces de la "introducerea utilizatorului" la "răspunsul agentului inteligent" este numit o rundă de conversație (numită un thread în Codex).

Multi-turn Agent loop

Pe măsură ce conversația progresează, lungimea promptului (Prompt) utilizat pentru inferența modelului va crește, de asemenea. Această lungime este importantă, deoarece fiecare model are o fereastră de context, care reprezintă numărul maxim de tokeni pe care modelul îi poate utiliza într-un apel de inferență.

Inferența model

Codex CLI trimite cereri HTTP către Responses API pentru inferența modelului. Codex utilizează Responses API pentru a conduce bucla agentului.

Ce este Responses API?

Responses API este o interfață de dezvoltare a agenților inteligenți de nouă generație lansată de OpenAI în martie 2025, care își propune să unifice capacitățile de conversație, apelare a instrumentelor și procesare multimodală, oferind dezvoltatorilor o experiență mai flexibilă și mai puternică de construire a aplicațiilor AI.

Endpoint-ul Responses API utilizat de Codex CLI este configurabil și poate fi utilizat cu orice endpoint care implementează Responses API.

Fluxul de construire a promptului

Modelul efectuează eșantionarea (generează răspunsuri)

Cererea HTTP lansată către Responses API va iniția prima "rundă" (turn) în conversația Codex. Serverul va returna răspunsuri în flux prin Server-Sent Events (SSE).

Structura promptului ulterior

Rețineți că promptul din runda anterioară este un prefix exact al noului prompt. Acest design poate îmbunătăți semnificativ eficiența cererilor ulterioare - poate fi utilizat mecanismul de cache al promptului.

Creșterea promptului în conversații multiple

Impactul creșterii continue a promptului odată cu creșterea rundelor

1. Aspecte legate de performanță

Creșterea costului de eșantionare a modelului: Extinderea continuă a promptului va crește costul de eșantionare a modelului, deoarece procesul de eșantionare trebuie să proceseze mai multe date, ceea ce duce la o creștere a volumului de calcul.
Reducerea beneficiilor cache: Pe măsură ce promptul se extinde continuu odată cu creșterea rundelor, dificultatea potrivirii exacte a prefixului crește, iar probabilitatea de a accesa cache-ul scade.

2. Aspecte legate de gestionarea ferestrei de context

Fereastra de context se epuizează ușor: Extinderea continuă a promptului va face ca numărul de marcaje din conversație să crească rapid, iar odată ce depășește pragul ferestrei de context, poate duce la epuizarea ferestrei de context.
Creșterea necesității operațiunilor de compresie: Pentru a evita epuizarea ferestrei de context, este necesar să se comprime conversația atunci când numărul de marcaje depășește pragul.

3. Aspecte legate de riscul de ratare a cache-ului

O varietate de operațiuni pot declanșa ratarea cache-ului: Dacă modificările instrumentelor disponibile ale modelului, ale modelului țintă, ale configurației sandbox etc. sunt implicate din cauza extinderii promptului, riscul de ratare a cache-ului va crește și mai mult.
Instrumentele MCP adaugă complexitate: Serverul MCP poate modifica dinamic lista de instrumente furnizate, iar răspunsul la notificările relevante în conversațiile lungi poate duce la ratarea cache-ului.

Informații de referință: 《Unrolling the Codex agent loop》Sursa: OpenAI

Vrei să înțelegi agentul inteligent Codex? Nu rata această analiză aprofundată!

Vrei să înțelegi agentul inteligent Codex? Nu rata această analiză aprofundată!

În primul rând, ce este Codex CLI?

Agent Loop (bucla agentului inteligent)

Inferența model

Modelul efectuează eșantionarea (generează răspunsuri)

Impactul creșterii continue a promptului odată cu creșterea rundelor

1. Aspecte legate de performanță

2. Aspecte legate de gestionarea ferestrei de context

3. Aspecte legate de riscul de ratare a cache-ului

You Might Also Like

Claude Code Buddy Modificare Ghid: Cum să obții un animal de companie legendar strălucitor

Obsidian a lansat Defuddle, ducând Obsidian Web Clipper la un nou nivel

OpenAI a anunțat brusc "3 în 1": combinarea browser-ului + programare + ChatGPT, recunoscând că a greșit în ultimul an

2026, nu te mai forța să fii "disciplinat"! Fă aceste 8 lucruri mici și sănătatea va veni natural

Mamele care se străduiesc să slăbească, dar nu reușesc, cu siguranță au căzut aici

AI Browser 24小时稳定运行指南