Je, Unataka Kuelewa Akili Bandia ya Codex? Uchambuzi Huu wa Kina Haufai Kukosa!

OpenAI imefanya jambo "lisilo la kawaida" hivi punde.

Kwa kawaida, OpenAI hutoa miundo yenye nguvu zaidi (kama vile o1), lakini wakati huu, walichapisha blogu ya kina ya kiufundi 《Unrolling the Codex agent loop》, sio tu kwamba walifungua chanzo cha msingi wa mantiki ya Codex CLI, lakini pia walivunja hatua kwa hatua jinsi akili bandia ya msimbo iliyokomaa (Coding Agent) inavyoendeshwa.

Codex CLI

Katika wakati ambapo Claude Code na Cursor zinapata umaarufu mkubwa, makala hii ya OpenAI sio tu kuonyesha nguvu, lakini pia "Mwongozo wa kuepuka hatari kwa mbunifu wa Agent". Ikiwa unataka kutumia vizuri zana za programu za AI, au unataka kuendeleza Agent yako mwenyewe, makala hii inafaa kusoma kwa makini.

Makala kamili ina maneno 8300+, na inachukua takriban dakika 20 kusoma.

Kwanza, Codex CLI ni nini?

Codex CLI ni zana ya wakala wa usimbaji chanzo huria iliyotolewa na OpenAI, ambayo inaweza kuendeshwa kwenye kompyuta ya ndani au kusakinishwa katika kihariri cha msimbo. Inasaidia VS Code, Cursor, Windsurf, n.k.

Anwani ya chanzo huria: https://github.com/openai/codex

Codex CLI界面

Na Agent Loop (kitanzi cha wakala) ambacho kitaanzishwa wakati huu ni mantiki ya msingi ya Codex CLI: inawajibika kuratibu mtumiaji, mfumo, na simu za mfumo, ili kutekeleza mwingiliano kati ya zana muhimu.

Agent Loop (Kitanzi cha Akili Bandia)

Mfumo ni sehemu tu, Agent (akili bandia) ndiyo inaweza kuunda bidhaa.

Msingi wa kila AI Agent ni kile kinachoitwa "kitanzi cha akili bandia (Agent Loop)". Mchoro wa kitanzi cha akili bandia ni kama ifuatavyo:

Agent Loop示意图

Kawaida tunafikiria kuwa programu ya AI ni: "Ninauliza, inajibu". Lakini ndani ya Codex CLI, huu ni mchakato mgumu wa kitanzi usio na kikomo...

Kitanzi cha kawaida cha Agent kinajumuisha hatua zifuatazo:

Maagizo ya mtumiaji: Seti ya maagizo ya maandishi ambayo mtumiaji anaingiza (kwa mfano, "rekebisha kazi hii").
Utoaji wa mfumo: Mfumo huamua ikiwa utajibu moja kwa moja au kupiga simu zana (Tool Call).
Simu ya zana: Ikiwa mfumo unaamua kupiga simu orodha ya faili au kuendesha shell, CLI itatekeleza amri hizi ndani ya nchi.
Uangalizi (Observation): Matokeo ya utekelezaji wa zana (msimbo, hitilafu, orodha ya faili) yamenaswa.
Kitanzi: Matokeo haya yanaongezwa kwenye historia ya mazungumzo na kulishwa tena kwa mfumo. Baada ya mfumo kuona matokeo, huamua hatua inayofuata.
Kukomesha: Hadi mfumo ufikirie kuwa kazi imekamilika na kutoa jibu la mwisho.

Utaratibu mzima kutoka "ingizo la mtumiaji" hadi "jibu la akili bandia" unaitwa raundi ya mazungumzo (inayoitwa thread katika Codex).

Multi-turn Agent loop

Kadiri mazungumzo yanavyoendelea, urefu wa kidokezo (Prompt) kinachotumika kwa utoaji wa mfumo pia utaongezeka. Urefu huu ni muhimu, kwa sababu kila mfumo una dirisha la muktadha, ambalo linawakilisha idadi kubwa ya tokeni ambazo mfumo unaweza kutumia katika simu moja ya utoaji.

Utoaji wa Mfumo

Codex CLI hutuma ombi la HTTP kwa Responses API kwa utoaji wa mfumo. Codex hutumia Responses API kuendesha kitanzi cha wakala.

Responses API ni nini?

Responses API ni kizazi kipya cha kiolesura cha ukuzaji wa akili bandia kilichozinduliwa na OpenAI mnamo Machi 2025, ambacho kinalenga kuunganisha mazungumzo, simu za zana na uwezo wa usindikaji wa aina nyingi, ili kuwapa wasanidi programu uzoefu rahisi zaidi na wenye nguvu wa kujenga programu za AI.

Sehemu ya mwisho ya Responses API inayotumiwa na Codex CLI inaweza kusanidiwa na inaweza kutumika na sehemu yoyote ya mwisho inayotekeleza Responses API.

Prompt构建流程

Mfumo hufanya sampuli (hutoa majibu)

Ombi la HTTP lililoanzishwa kwa Responses API litaanzisha "raundi" ya kwanza katika mazungumzo ya Codex. Seva itarudisha majibu kupitia Server-Sent Events (SSE).

后续提示词结构

Kumbuka kuwa kidokezo cha raundi iliyopita ni kiambishi sahihi cha kidokezo kipya. Ubunifu huu unaweza kuboresha kwa kiasi kikubwa ufanisi wa maombi yanayofuata - utaratibu wa akiba ya kidokezo unaweza kutumika.

多轮对话提示词增长

Athari za kidokezo kuendelea kuongezeka na raundi

1. Kwa upande wa utendaji

Gharama ya sampuli ya mfumo huongezeka: Kidokezo kinaendelea kuongezeka, ambayo itafanya gharama ya sampuli ya mfumo kuongezeka, kwa sababu mchakato wa sampuli unahitaji kushughulikia data zaidi, na kusababisha ongezeko la hesabu.
Ufanisi wa akiba hupungua: Kadiri kidokezo kinavyoendelea kuongezeka na raundi, ugumu wa kulinganisha kiambishi sahihi huongezeka, na uwezekano wa akiba kupigwa hupungua.

2. Kwa upande wa usimamizi wa dirisha la muktadha

Dirisha la muktadha linaweza kuisha kwa urahisi: Kidokezo kinaendelea kuongezeka, ambayo itafanya idadi ya alama katika mazungumzo kuongezeka haraka. Mara tu inapozidi kizingiti cha dirisha la muktadha, inaweza kusababisha dirisha la muktadha kuisha.
Uhitaji wa shughuli za kubana huongezeka: Ili kuepuka dirisha la muktadha kuisha, mazungumzo yanahitaji kubanwa wakati idadi ya alama inazidi kizingiti.

3. Kwa upande wa hatari ya akiba kukosa

Shughuli nyingi zinaweza kusababisha akiba kukosa: Ikiwa mabadiliko ya zana zinazopatikana za mfumo, mfumo lengwa, usanidi wa sandbox, n.k. yanahusika kwa sababu ya urefu wa kidokezo, itaongeza zaidi hatari ya akiba kukosa.
Zana za MCP huongeza utata: Seva ya MCP inaweza kubadilisha orodha ya zana zinazotolewa, na kujibu arifa zinazohusiana katika mazungumzo marefu kunaweza kusababisha akiba kukosa.

Rejea: 《Unrolling the Codex agent loop》Chanzo: OpenAI