Chcete porozumieť agentovi Codex? Túto hĺbkovú analýzu si nemôžete nechať ujsť!

OpenAI práve urobil „netradičnú“ vec.

Zvyčajne OpenAI vydáva silnejšie modely (ako napríklad o1), ale tentokrát zverejnili hĺbkový technický blog 《Unrolling the Codex agent loop》, nielenže sprístupnili kód jadra Codex CLI, ale aj krok za krokom rozobrali, ako vlastne funguje vyspelý kódový agent (Coding Agent).

Codex CLI

V súčasnosti, keď si Claude Code a Cursor získavajú obrovskú popularitu, tento článok od OpenAI nie je len predvádzaním sily, ale aj „príručkou pre architektov agentov, ako sa vyhnúť nástrahám“. Či už chcete dobre využívať nástroje na programovanie s AI, alebo si chcete sami vyvinúť agenta, tento článok si zaslúži preštudovať slovo po slove.

Celý text má viac ako 8300 slov a jeho prečítanie trvá približne 20 minút.

Po prvé, čo je Codex CLI?

Codex CLI je open-source nástroj pre kódovanie agentov od OpenAI, ktorý je možné spustiť na lokálnom počítači alebo nainštalovať do editora kódu. Podporuje VS Code, Cursor, Windsurf a ďalšie.

Open-source adresa: https://github.com/openai/codex

Rozhranie Codex CLI

A Agent Loop (cyklus agenta), ktorý bude predstavený, je jadrom logiky Codex CLI: je zodpovedný za koordináciu používateľa, modelu a volania modelu, aby sa vykonávali interakcie medzi hodnotnými nástrojmi.

Agent Loop (cyklus inteligentného agenta)

Model je len komponent, až agent (inteligentný agent) tvorí produkt.

Jadrom každého AI agenta je takzvaný „cyklus inteligentného agenta (Agent Loop)“. Schéma cyklu inteligentného agenta je znázornená nižšie:

Schéma cyklu agenta

Zvyčajne si myslíme, že programovanie s AI je: „Pýtam sa, on odpovedá“. Ale vnútri Codex CLI je to zložitý nekonečný cyklický proces...

Štandardný Agent Loop obsahuje nasledujúce kroky:

Používateľské inštrukcie: Súbor textových inštrukcií zadaných používateľom (napríklad „refaktoruj túto funkciu“).
Modelové odvodzovanie: Model rozhoduje, či odpovie priamo, alebo zavolá nástroj (Tool Call).
Volanie nástroja: Ak sa model rozhodne zavolať list files alebo run shell, CLI vykoná tieto príkazy lokálne.
Pozorovanie (Observation): Výsledky vykonania nástroja (kód, chyby, zoznam súborov) sú zachytené.
Cyklus: Tieto výsledky sa pripoja k histórii konverzácie a opäť sa podajú modelu. Keď model uvidí výsledky, rozhodne sa, aká bude ďalšia operácia.
Ukončenie: Až kým model neusúdi, že úloha je dokončená, a nevypíše konečnú odpoveď.

Celý proces od „vstupu používateľa“ po „odpoveď inteligentného agenta“ sa nazýva kolo konverzácie (v Codex sa nazýva vlákno).

Multi-turn Agent loop

Ako konverzácia pokračuje, dĺžka promptu (Prompt) použitého na odvodzovanie modelu sa tiež zvyšuje. Táto dĺžka je dôležitá, pretože každý model má kontextové okno, ktoré predstavuje maximálny počet tokenov, ktoré môže model použiť v jednom volaní odvodzovania.

Modelové odvodzovanie

Codex CLI odosiela HTTP požiadavky na Responses API na vykonanie modelového odvodzovania. Codex používa Responses API na riadenie cyklu agenta.

Čo je Responses API?

Responses API je nová generácia rozhrania na vývoj inteligentných agentov, ktorú OpenAI uviedla na trh v marci 2025, ktorej cieľom je zjednotiť konverzáciu, volanie nástrojov a možnosti multimodálneho spracovania, aby vývojárom poskytla flexibilnejší a výkonnejší zážitok z vytvárania aplikácií AI.

Koncový bod Responses API, ktorý používa Codex CLI, je konfigurovateľný a môže sa používať s akýmkoľvek koncovým bodom, ktorý implementuje Responses API.

Proces vytvárania promptu

Model vykonáva vzorkovanie (generuje odpoveď)

HTTP požiadavka odoslaná na Responses API spustí prvé „kolo“ (turn) v konverzácii Codex. Server streamuje odpoveď prostredníctvom Server-Sent Events (SSE).

Štruktúra nasledujúceho promptu

Všimnite si, že prompt z predchádzajúceho kola je presnou predponou nového promptu. Tento dizajn môže výrazne zvýšiť efektivitu nasledujúcich požiadaviek – je možné využiť mechanizmus ukladania promptov do vyrovnávacej pamäte.

Nárast promptu vo viackolovej konverzácii

Vplyv neustáleho predlžovania promptu s pribúdajúcimi kolami

1. Z hľadiska výkonu

Zvýšenie nákladov na vzorkovanie modelu: Neustále predlžovanie promptu spôsobí zvýšenie nákladov na vzorkovanie modelu, pretože proces vzorkovania musí spracovať viac údajov, čo vedie k zvýšeniu výpočtového zaťaženia.
Zníženie efektívnosti ukladania do vyrovnávacej pamäte: S neustálym predlžovaním promptu s pribúdajúcimi kolami sa zvyšuje náročnosť presného priraďovania predpôn, čím sa znižuje pravdepodobnosť zásahu do vyrovnávacej pamäte.

2. Z hľadiska správy kontextového okna

Jednoduché vyčerpanie kontextového okna: Neustále predlžovanie promptu spôsobí rýchly nárast počtu tokenov v konverzácii, a ak sa prekročí prahová hodnota kontextového okna, môže to viesť k vyčerpaniu kontextového okna.
Zvýšenie nevyhnutnosti kompresných operácií: Aby sa predišlo vyčerpaniu kontextového okna, je potrebné komprimovať konverzáciu, keď počet tokenov prekročí prahovú hodnotu.

3. Z hľadiska rizika nezásahu do vyrovnávacej pamäte

Rôzne operácie ľahko spôsobia nezásah do vyrovnávacej pamäte: Ak sa z dôvodu predĺženia promptu zmenia dostupné nástroje modelu, cieľový model, konfigurácia sandboxu a iné operácie, ďalej sa zvýši riziko nezásahu do vyrovnávacej pamäte.
Nástroje MCP zvyšujú zložitosť: Server MCP môže dynamicky meniť zoznam poskytovaných nástrojov a reakcia na súvisiace upozornenia v dlhých konverzáciách môže viesť k nezásahu do vyrovnávacej pamäte.

Referenčné informácie: 《Unrolling the Codex agent loop》Zdroj: OpenAI