Norite suprasti Codex agentą? Šios išsamios analizės negalima praleisti!

OpenAI ką tik padarė „nenormalų“ dalyką.

Įprastai OpenAI išleidžia galingesnius modelius (pvz., o1), tačiau šį kartą jie paskelbė išsamų techninį tinklaraštį „Unrolling the Codex agent loop“, kuriame ne tik atvėrė Codex CLI pagrindinę logiką, bet ir žingsnis po žingsnio išardė, kaip veikia subrendęs kodo agentas (Coding Agent).

Codex CLI

Šiuo metu, kai Claude Code ir Cursor beprotiškai populiarėja, šis OpenAI straipsnis yra ne tik raumenų demonstravimas, bet ir „Agentų architektų klaidų vengimo vadovas“. Nesvarbu, ar norite gerai naudoti AI programavimo įrankius, ar norite patys sukurti Agentą, šį straipsnį verta perskaityti žodis po žodžio.

Visas tekstas yra daugiau nei 8300 žodžių, skaitymas užtruks apie 20 minučių.

Pirmiausia, kas yra Codex CLI?

Codex CLI yra OpenAI sukurtas atvirojo kodo kodavimo Agent įrankis, kuris gali būti paleistas vietiniame kompiuteryje arba įdiegtas kodo redaktoriuje. Palaiko VS Code, Cursor, Windsurf ir kt.

Atvirojo kodo adresas: https://github.com/openai/codex

Codex CLI sąsaja

O Agent Loop (agento ciklas), kuris bus pristatytas šį kartą, yra pagrindinė Codex CLI logika: atsakinga už vartotojo, modelio ir modelio iškvietimų koordinavimą, kad būtų galima atlikti vertingą sąveiką tarp įrankių.

Agent Loop (agento ciklas)

Modeliai yra tik komponentai, tik Agentas (agentas) gali sudaryti produktą.

Kiekvieno AI Agento pagrindas yra vadinamasis „agento ciklas (Agent Loop)“. Agento ciklo schema parodyta žemiau:

Agent Loop schema

Mes dažnai manome, kad AI programavimas yra: „Aš klausiu, jis atsako“. Tačiau Codex CLI viduje tai yra sudėtingas begalinis ciklas...

Standartinis Agent Loop apima šiuos etapus:

Vartotojo instrukcijos: vartotojo įvestų teksto instrukcijų rinkinys (pvz., „refaktoruokite šią funkciją“).
Modelio išvedimas: modelis nusprendžia, ar atsakyti tiesiogiai, ar iškviesti įrankį (Tool Call).
Įrankio iškvietimas: jei modelis nusprendžia iškviesti list files arba run shell, CLI vykdys šias komandas vietoje.
Stebėjimas (Observation): užfiksuojami įrankio vykdymo rezultatai (kodas, klaidos, failų sąrašas).
Ciklas: šie rezultatai pridedami prie pokalbio istorijos ir vėl įvedami į modelį. Pamatęs rezultatus, modelis nusprendžia, ką daryti toliau.
Nutraukimas: kol modelis mano, kad užduotis baigta, išvedamas galutinis atsakymas.

Visas procesas nuo „vartotojo įvesties“ iki „agento atsakymo“ vadinamas pokalbio raundu (Codex vadinamas gija).

Kelių raundų agento ciklas

Bėgant pokalbiui, didėja ir raginimo (Prompt) ilgis, naudojamas modeliui išvesti. Šis ilgis yra svarbus, nes kiekvienas modelis turi konteksto langą, kuris parodo didžiausią žetonų (tokens) skaičių, kurį modelis gali naudoti viename išvedimo iškvietime.

Modelio išvedimas

Codex CLI siunčia HTTP užklausą į Responses API, kad atliktų modelio išvedimą. Codex naudoja Responses API, kad valdytų agento ciklą.

Kas yra Responses API?

Responses API yra naujos kartos agentų kūrimo sąsaja, kurią OpenAI pristatė 2025 m. kovo mėn., siekdama suvienodinti pokalbių, įrankių iškvietimų ir daugiarūšio apdorojimo galimybes, kad kūrėjams būtų suteikta lankstesnė ir galingesnė AI programų kūrimo patirtis.

Codex CLI naudojamas Responses API galinis taškas yra konfigūruojamas ir gali būti naudojamas su bet kuriuo galiniu tašku, kuris įgyvendina Responses API.

Prompt kūrimo procesas

Modelis atlieka atranką (generuoja atsakymą)

HTTP užklausa, inicijuota Responses API, paleidžia pirmąjį „raundą“ Codex pokalbyje. Serveris grąžins atsakymą srautiniu būdu per Server-Sent Events (SSE).

Tolesnė raginimo struktūra

Atkreipkite dėmesį, kad ankstesnio raundo raginimas yra tikslus naujo raginimo priešdėlis. Šis dizainas gali žymiai pagerinti tolesnių užklausų efektyvumą – galima pasinaudoti raginimo talpyklos mechanizmu.

Kelių raundų pokalbio raginimo augimas

Ragininimo nuolatinio ilginimo poveikis didėjant raundų skaičiui

1. Našumo požiūriu

Padidėjusios modelio atrankos išlaidos: nuolatinis raginimo ilginimas padidins modelio atrankos išlaidas, nes atrankos procesas turi apdoroti daugiau duomenų, todėl padidėja skaičiavimo kiekis.
Sumažėjęs talpyklos efektyvumas: nuolat ilgėjant raginimui didėjant raundų skaičiui, didėja sunkumas tiksliai atitikti priešdėlį, o talpyklos pataikymo tikimybė mažėja.

2. Konteksto lango valdymo požiūriu

Lengvai išeikvojamas konteksto langas: nuolatinis raginimo ilginimas greitai padidins žymų skaičių pokalbyje, o kai tik bus viršyta konteksto lango riba, gali būti išeikvotas konteksto langas.
Padidėjęs suspaudimo operacijų poreikis: norint išvengti konteksto lango išeikvojimo, pokalbis turi būti suspaustas, kai žymų skaičius viršija ribą.

3. Talpyklos praleidimo rizikos požiūriu

Daugelis operacijų gali sukelti talpyklos praleidimą: jei dėl raginimo ilginimo reikia keisti modelio turimus įrankius, tikslinį modelį, smėlio dėžės konfigūraciją ir kitas operacijas, tai dar labiau padidins talpyklos praleidimo riziką.
MCP įrankiai padidina sudėtingumą: MCP serveris gali dinamiškai keisti teikiamų įrankių sąrašą, o reaguojant į atitinkamus pranešimus ilgalaikiuose pokalbiuose gali būti praleista talpykla.

Informacija nuoroda: „Unrolling the Codex agent loop“ Šaltinis: OpenAI