बिना पैरामीटर ट्यूनिंग के, सिर्फ कोड लिखें! जेफ क्लूने की टीम का नया काम: मेटा एजेंट स्वचालित रूप से मेमोरी मॉड्यूल विकसित करता है

सॉफ्टवेयर 3.0 की ओर, AI अपने दिमाग को विकसित करने के लिए खुद Python कोड लिखना शुरू कर रहा है।

ALMA

एजेंट विकास के गहरे पानी में, मेमोरी (Memory) हमेशा एक दर्द बिंदु रहा है जिससे बचा नहीं जा सकता।

हालांकि बुनियादी मॉडल की क्षमताएं तेजी से बढ़ रही हैं, लेकिन तर्क प्रक्रिया में वे अनिवार्य रूप से स्टेटलेस (Stateless) हैं, जो एजेंट की लगातार अनुभव जमा करने की क्षमता को सीमित करता है।

वर्तमान में, मेमोरी को संभालने के लिए उद्योग के मुख्यधारा के समाधान, चाहे वह RAG हो या स्लाइडिंग विंडो सारांश, अनिवार्य रूप से अभी भी मैन्युअल रूप से डिज़ाइन किए गए ह्यूरिस्टिक नियमों के चरण में हैं।

यह मैन्युअल रूप से बनाया गया मेमोरी मॉड्यूल बेहद नाजुक और स्थानांतरित करने में मुश्किल है। संवाद प्रणालियों के लिए सावधानीपूर्वक ट्यून किए गए प्रॉम्प्ट और पुनर्प्राप्ति तर्क, एक बार लंबी दूरी की योजना कार्यों (जैसे ALFWorld) या जटिल रणनीति गेम में डाल दिए जाने पर, अक्सर सीधे विफल हो जाते हैं।

ALMA आर्किटेक्चर

इस दुविधा के जवाब में, UBC के प्रोफेसर और OpenAI के पूर्व शोधकर्ता जेफ क्लूने की टीम ने एक गीक-शैली का समाधान दिया है।

चूंकि यह ज्ञात नहीं है कि किस प्रकार की मेमोरी संरचना सबसे अच्छी है, इसलिए एजेंट को खुद Python कोड लिखने दें और इसे डिज़ाइन करें।

यह अभी जारी किया गया ALMA (Automated meta-Learning of Memory designs for Agentic systems) है।

ADAS से ALMA तक: कोड-आधारित स्वचालित डिज़ाइन

ALMA हाल ही में टीम द्वारा प्रचारित AI जनरेटिंग एल्गोरिथम तकनीकी मार्ग की निरंतरता है।

ADAS

ADAS (Automated Design of Agentic Systems) में, टीम ने साबित किया कि एजेंट आर्किटेक्चर को डिजाइन करते समय, कोड न्यूरल नेटवर्क वेट या सॉफ्ट प्रॉम्प्ट की तुलना में अधिक कुशल खोज स्थान है। कोड ट्यूरिंग पूर्णता रखता है और इसमें मजबूत व्याख्या क्षमता है।

मेटा एजेंट

बाद में DGM (Darwin Gödel Machine) में, टीम ने विकासवादी एल्गोरिदम से ओपन-एंडेड एक्सप्लोरेशन की अवधारणा पेश की, एक डिज़ाइन आर्काइव बनाए रखा, और मॉडल को उपन्यास समाधानों का पता लगाने के लिए प्रोत्साहित किया।

DGM

ALMA ने ADAS के कोड जनरेशन प्रतिमान और DGM की विकासवादी रणनीति को विरासत में मिला है, और एप्लिकेशन परिदृश्यों को एजेंट सिस्टम में सबसे अधिक मानव अनुभव-निर्भर घटक - मेमोरी पर केंद्रित किया है।

ALMA की कार्य प्रणाली

ALMA का संचालन तंत्र एक मानक मेटा-लर्निंग क्लोज्ड लूप है। मेटा एजेंट अब सीधे कार्यों को नहीं संभालता है, बल्कि प्रोग्रामिंग के लिए जिम्मेदार है। प्रक्रिया में चार चरण शामिल हैं:

विचार: वर्तमान मेमोरी डिज़ाइन आर्काइव का विश्लेषण करें और ऐतिहासिक प्रदर्शन के आधार पर सुधार योजनाओं की कल्पना करें
योजना: विचारों को छद्म कोड लॉजिक में बदलें
कार्यान्वयन: निष्पादन योग्य Python कोड लिखें और मुख्य कार्यों को परिभाषित करें
मूल्यांकन: उत्पन्न कोड को सैंडबॉक्स वातावरण में तैनात करें ताकि कार्यों को निष्पादित किया जा सके और प्रदर्शन मेट्रिक्स को फीडबैक दिया जा सके

कार्य प्रवाह

विकास की प्रक्रिया में, ALMA एक विशाल डिज़ाइन ट्री उत्पन्न करेगा। पुनरावृत्तियों की संख्या बढ़ने के साथ, उत्पन्न मेमोरी कोड धीरे-धीरे सरल स्टोरेज लॉजिक से जटिल संज्ञानात्मक आर्किटेक्चर में विकसित होता है।

विकास ट्री

विकसित मेमोरी संरचना

ALMA द्वारा उत्पन्न मेमोरी डिज़ाइन ने विभिन्न कार्यों में अत्यधिक भिन्नता दिखाई:

MiniHack (कालकोठरी साहसिक): एक जोखिम और इंटरैक्शन मॉड्यूल डिज़ाइन किया गया, जो स्पष्ट रूप से रक्त हानि और राक्षसों की आक्रामकता का कारण बनने वाले कार्यों को रिकॉर्ड करता है
Baba Is AI (तार्किक पहेली): एक रणनीति पुस्तकालय डिज़ाइन किया गया, जो स्तरों को पार करने के लिए आवश्यक नियमों के संयोजन को रिकॉर्ड करता है

मेमोरी संरचना

यह दर्शाता है कि AI कार्य विशेषताओं को पहचानने में सक्षम है: उत्तरजीविता खेलों को जोखिमों पर ध्यान देने की आवश्यकता होती है, और पहेली खेलों को नियम अमूर्तता पर ध्यान देने की आवश्यकता होती है।

प्रयोग के परिणाम

TextWorld, ALFWorld, MiniHack, Baba Is AI चार वातावरणों में ALMA की तुलना मुख्यधारा के बेसलाइन से की गई।

GPT-5-mini मॉडल पर, ALMA की औसत सफलता दर 53.9% तक पहुंच गई, जो G-Memory (46.0%) और Trajectory Retrieval (48.6%) से बेहतर है।

प्रयोग के परिणाम

लागत दक्षता के मामले में, ALMA औसतन केवल 1,319 टोकन का उपभोग करता है, जबकि Trajectory Retrieval 9,149 टोकन तक का उपभोग करता है, और G-Memory भी 6,055 टोकन तक पहुंच गया। ALMA ने केवल लगभग 1/7 से 1/5 की लागत पर बेहतर प्रदर्शन प्राप्त किया।

लागत दक्षता

निष्कर्ष

ALMA सॉफ्टवेयर 2.0 (न्यूरल नेटवर्क) से सॉफ्टवेयर 3.0 (AI-जनरेटिंग एल्गोरिदम) में संक्रमण की संभावना को दर्शाता है।

एजेंट विकास में, मेमोरी मॉड्यूल का डिज़ाइन लंबे समय से इंजीनियरों की अंतर्ज्ञान पर निर्भर रहा है। ALMA ने साबित किया है कि मेटा-लर्निंग और कोड जनरेशन के माध्यम से, AI विशिष्ट वातावरण के अनुसार स्वचालित रूप से इष्टतम मेमोरी आर्किटेक्चर की खोज कर सकता है।

संसाधन लिंक

पेपर: https://arxiv.org/pdf/2602.07755
कोड: https://github.com/zksha/alma
प्रोजेक्ट होमपेज: https://yimingxiong.me/alma

ADAS से ALMA तक: कोड-आधारित स्वचालित डिज़ाइन

ALMA की कार्य प्रणाली

विकसित मेमोरी संरचना

प्रयोग के परिणाम

निष्कर्ष

संसाधन लिंक

You Might Also Like

Claude Code Buddy संशोधन गाइड: कैसे प्राप्त करें चमकदार किंवदंती स्तर का पालतू

Obsidian ने Defuddle लॉन्च किया, Obsidian Web Clipper को एक नए स्तर पर ले गया

2026, खुद को 'स्वायत्त' करने के लिए मजबूर नहीं! ये 8 छोटी बातें करें, स्वास्थ्य स्वाभाविक रूप से आएगा

वे माताएँ जो वजन कम करने की कोशिश कर रही हैं लेकिन सफल नहीं हो रही हैं, निश्चित रूप से यहाँ फंस गई हैं

AI ब्राउज़र 24 घंटे स्थिर संचालन गाइड