कोडेक्स इंटेलिजेंट एजेंट को समझना चाहते हैं? इस गहन विश्लेषण को मिस न करें!

OpenAI ने अभी एक "असामान्य" काम किया है।

आमतौर पर, OpenAI अधिक शक्तिशाली मॉडल (जैसे o1) जारी करेगा, लेकिन इस बार, उन्होंने एक गहन तकनीकी ब्लॉग «Unrolling the Codex agent loop» प्रकाशित किया, न केवल कोडेक्स CLI के मूल तर्क को ओपन सोर्स किया, बल्कि एक परिपक्व कोड इंटेलिजेंट एजेंट (Coding Agent) वास्तव में कैसे चलता है, इसे भी चरण-दर-चरण समझाया।

Codex CLI

क्लाउड कोड और कर्सर के तेजी से लोकप्रिय होने के साथ, OpenAI का यह लेख न केवल अपनी ताकत दिखा रहा है, बल्कि एक "एजेंट आर्किटेक्ट के लिए नुकसान से बचने का गाइड" भी है। चाहे आप AI प्रोग्रामिंग टूल का अच्छी तरह से उपयोग करना चाहते हों, या अपना खुद का एजेंट विकसित करना चाहते हों, यह लेख शब्दशः पढ़ने लायक है।

पूरा लेख 8300+ शब्द है, पढ़ने में लगभग 20 मिनट लगेंगे।

सबसे पहले, कोडेक्स CLI क्या है?

कोडेक्स CLI OpenAI द्वारा निर्मित एक ओपन-सोर्स कोडिंग एजेंट टूल है, जिसे स्थानीय कंप्यूटर पर चलाया जा सकता है या कोड एडिटर में इंस्टॉल किया जा सकता है। यह VS Code, Cursor, Windsurf आदि को सपोर्ट करता है।

ओपन सोर्स एड्रेस: https://github.com/openai/codex

Codex CLI界面

और जिस एजेंट लूप (एजेंट चक्र) को इस बार पेश किया जाना है, वह कोडेक्स CLI का मूल तर्क है: यह उपयोगकर्ता, मॉडल और मॉडल कॉल को समन्वयित करने के लिए जिम्मेदार है, ताकि मूल्यवान टूल के बीच बातचीत को अंजाम दिया जा सके।

एजेंट लूप (इंटेलिजेंट एजेंट चक्र)

मॉडल सिर्फ घटक हैं, एजेंट (इंटेलिजेंट एजेंट) ही उत्पाद बना सकते हैं।

प्रत्येक AI एजेंट का मूल तथाकथित "इंटेलिजेंट एजेंट चक्र (Agent Loop)" होता है। इंटेलिजेंट एजेंट चक्र का आरेख नीचे दिखाया गया है:

Agent Loop示意图

हम आमतौर पर मानते हैं कि AI प्रोग्रामिंग का मतलब है: "मैं पूछता हूं, यह जवाब देता है"। लेकिन कोडेक्स CLI के अंदर, यह एक जटिल अनंत लूप प्रक्रिया है...

एक मानक एजेंट लूप में निम्नलिखित चरण शामिल हैं:

उपयोगकर्ता निर्देश: उपयोगकर्ता द्वारा इनपुट किए गए टेक्स्ट निर्देशों का एक सेट (उदाहरण के लिए "इस फ़ंक्शन को रीफैक्टर करें")।
मॉडल अनुमान: मॉडल यह तय करता है कि सीधे जवाब देना है या टूल (Tool Call) को कॉल करना है।
टूल कॉल: यदि मॉडल list files या run shell को कॉल करने का निर्णय लेता है, तो CLI स्थानीय रूप से इन कमांड को निष्पादित करेगा।
अवलोकन (Observation): टूल निष्पादन के परिणाम (कोड, त्रुटियां, फ़ाइल सूची) कैप्चर किए जाते हैं।
चक्र: इन परिणामों को वार्तालाप इतिहास में जोड़ा जाता है और फिर से मॉडल को खिलाया जाता है। परिणाम देखने के बाद, मॉडल अगले ऑपरेशन का निर्णय लेता है।
समाप्ति: जब तक मॉडल यह नहीं मानता कि कार्य पूरा हो गया है, तब तक अंतिम उत्तर आउटपुट करें।

"उपयोगकर्ता इनपुट" से "इंटेलिजेंट एजेंट प्रतिक्रिया" तक की पूरी प्रक्रिया को वार्तालाप का एक दौर कहा जाता है (कोडेक्स में इसे एक थ्रेड कहा जाता है)।

Multi-turn Agent loop

वार्तालाप की प्रगति के साथ, मॉडल को अनुमान लगाने के लिए उपयोग किए जाने वाले संकेत (Prompt) की लंबाई भी बढ़ जाएगी। यह लंबाई महत्वपूर्ण है, क्योंकि प्रत्येक मॉडल में एक संदर्भ विंडो होती है, जो एक अनुमान कॉल में मॉडल द्वारा उपयोग किए जा सकने वाले अधिकतम टोकन की संख्या का प्रतिनिधित्व करती है।

मॉडल अनुमान

कोडेक्स CLI मॉडल अनुमान के लिए Responses API को HTTP अनुरोध भेजता है। कोडेक्स एजेंट चक्र को चलाने के लिए Responses API का उपयोग करता है।

Responses API क्या है?

Responses API OpenAI द्वारा मार्च 2025 में लॉन्च किया गया अगली पीढ़ी का इंटेलिजेंट एजेंट विकास इंटरफ़ेस है, जिसका उद्देश्य वार्तालाप, टूल कॉल और मल्टीमॉडल प्रोसेसिंग क्षमताओं को एकीकृत करना है, ताकि डेवलपर्स को अधिक लचीला और शक्तिशाली AI एप्लिकेशन निर्माण अनुभव प्रदान किया जा सके।

कोडेक्स CLI द्वारा उपयोग किया जाने वाला Responses API एंडपॉइंट कॉन्फ़िगर करने योग्य है और इसे Responses API को लागू करने वाले किसी भी एंडपॉइंट के साथ उपयोग किया जा सकता है।

Prompt构建流程

मॉडल नमूनाकरण (प्रतिक्रिया उत्पन्न करना)

Responses API को भेजा गया HTTP अनुरोध कोडेक्स वार्तालाप में पहले "दौर" (turn) को शुरू करेगा। सर्वर Server-Sent Events (SSE) के माध्यम से प्रतिक्रिया को स्ट्रीम करता है।

后续提示词结构

ध्यान दें, पिछले दौर का संकेत नए संकेत का सटीक उपसर्ग है। इस डिज़ाइन से बाद के अनुरोधों की दक्षता में काफी सुधार हो सकता है - संकेत कैशिंग तंत्र का उपयोग किया जा सकता है।

多轮对话提示词增长

दौरों की संख्या में वृद्धि के साथ संकेत की लंबाई में निरंतर वृद्धि का प्रभाव

1. प्रदर्शन के मामले में

मॉडल नमूनाकरण लागत में वृद्धि: संकेत की निरंतर लंबाई में वृद्धि से मॉडल नमूनाकरण लागत में वृद्धि होगी, क्योंकि नमूनाकरण प्रक्रिया को अधिक डेटा को संसाधित करने की आवश्यकता होती है, जिससे गणना की मात्रा बढ़ जाती है।
कैश दक्षता में कमी: दौरों की संख्या में वृद्धि के साथ संकेत की निरंतर लंबाई में वृद्धि के साथ, सटीक उपसर्ग मिलान की कठिनाई बढ़ जाती है, और कैश हिट की संभावना कम हो जाती है।

2. संदर्भ विंडो प्रबंधन के मामले में

संदर्भ विंडो आसानी से समाप्त हो जाती है: संकेत की निरंतर लंबाई में वृद्धि से वार्तालाप में टोकन की संख्या में तेजी से वृद्धि होगी, और एक बार संदर्भ विंडो की सीमा पार हो जाने के बाद, संदर्भ विंडो समाप्त हो सकती है।
संपीड़न संचालन की आवश्यकता में वृद्धि: संदर्भ विंडो की समाप्ति से बचने के लिए, टोकन की संख्या सीमा से अधिक होने पर वार्तालाप को संपीड़ित करने की आवश्यकता होती है।

3. कैश मिस जोखिम के मामले में

कई संचालन आसानी से कैश मिस को ट्रिगर कर सकते हैं: यदि संकेत की लंबाई में वृद्धि के कारण मॉडल उपलब्ध टूल, लक्ष्य मॉडल, सैंडबॉक्स कॉन्फ़िगरेशन आदि को बदलने जैसे संचालन शामिल हैं, तो यह कैश मिस के जोखिम को और बढ़ा देगा।
MCP टूल जटिलता बढ़ाते हैं: MCP सर्वर गतिशील रूप से प्रदान किए गए टूल की सूची को बदल सकता है, और लंबे समय तक वार्तालाप में संबंधित सूचनाओं का जवाब देने से कैश मिस हो सकता है।

संदर्भ जानकारी: «Unrolling the Codex agent loop» स्रोत: OpenAI