बिना पैरामीटर ट्यूनिंग के, सिर्फ कोड लिखें! जेफ क्लूने की टीम का नया काम: मेटा एजेंट स्वचालित रूप से मेमोरी मॉड्यूल विकसित करता है
बिना पैरामीटर ट्यूनिंग के, सिर्फ कोड लिखें! जेफ क्लूने की टीम का नया काम: मेटा एजेंट स्वचालित रूप से मेमोरी मॉड्यूल विकसित करता है
सॉफ्टवेयर 3.0 की ओर, AI अपने दिमाग को विकसित करने के लिए खुद Python कोड लिखना शुरू कर रहा है।

एजेंट विकास के गहरे पानी में, मेमोरी (Memory) हमेशा एक दर्द बिंदु रहा है जिससे बचा नहीं जा सकता।
हालांकि बुनियादी मॉडल की क्षमताएं तेजी से बढ़ रही हैं, लेकिन तर्क प्रक्रिया में वे अनिवार्य रूप से स्टेटलेस (Stateless) हैं, जो एजेंट की लगातार अनुभव जमा करने की क्षमता को सीमित करता है।
वर्तमान में, मेमोरी को संभालने के लिए उद्योग के मुख्यधारा के समाधान, चाहे वह RAG हो या स्लाइडिंग विंडो सारांश, अनिवार्य रूप से अभी भी मैन्युअल रूप से डिज़ाइन किए गए ह्यूरिस्टिक नियमों के चरण में हैं।
यह मैन्युअल रूप से बनाया गया मेमोरी मॉड्यूल बेहद नाजुक और स्थानांतरित करने में मुश्किल है। संवाद प्रणालियों के लिए सावधानीपूर्वक ट्यून किए गए प्रॉम्प्ट और पुनर्प्राप्ति तर्क, एक बार लंबी दूरी की योजना कार्यों (जैसे ALFWorld) या जटिल रणनीति गेम में डाल दिए जाने पर, अक्सर सीधे विफल हो जाते हैं।

इस दुविधा के जवाब में, UBC के प्रोफेसर और OpenAI के पूर्व शोधकर्ता जेफ क्लूने की टीम ने एक गीक-शैली का समाधान दिया है।
चूंकि यह ज्ञात नहीं है कि किस प्रकार की मेमोरी संरचना सबसे अच्छी है, इसलिए एजेंट को खुद Python कोड लिखने दें और इसे डिज़ाइन करें।
यह अभी जारी किया गया ALMA (Automated meta-Learning of Memory designs for Agentic systems) है।
ADAS से ALMA तक: कोड-आधारित स्वचालित डिज़ाइन
ALMA हाल ही में टीम द्वारा प्रचारित AI जनरेटिंग एल्गोरिथम तकनीकी मार्ग की निरंतरता है।

ADAS (Automated Design of Agentic Systems) में, टीम ने साबित किया कि एजेंट आर्किटेक्चर को डिजाइन करते समय, कोड न्यूरल नेटवर्क वेट या सॉफ्ट प्रॉम्प्ट की तुलना में अधिक कुशल खोज स्थान है। कोड ट्यूरिंग पूर्णता रखता है और इसमें मजबूत व्याख्या क्षमता है।

बाद में DGM (Darwin Gödel Machine) में, टीम ने विकासवादी एल्गोरिदम से ओपन-एंडेड एक्सप्लोरेशन की अवधारणा पेश की, एक डिज़ाइन आर्काइव बनाए रखा, और मॉडल को उपन्यास समाधानों का पता लगाने के लिए प्रोत्साहित किया।

ALMA ने ADAS के कोड जनरेशन प्रतिमान और DGM की विकासवादी रणनीति को विरासत में मिला है, और एप्लिकेशन परिदृश्यों को एजेंट सिस्टम में सबसे अधिक मानव अनुभव-निर्भर घटक - मेमोरी पर केंद्रित किया है।
ALMA की कार्य प्रणाली
ALMA का संचालन तंत्र एक मानक मेटा-लर्निंग क्लोज्ड लूप है। मेटा एजेंट अब सीधे कार्यों को नहीं संभालता है, बल्कि प्रोग्रामिंग के लिए जिम्मेदार है। प्रक्रिया में चार चरण शामिल हैं:
- विचार: वर्तमान मेमोरी डिज़ाइन आर्काइव का विश्लेषण करें और ऐतिहासिक प्रदर्शन के आधार पर सुधार योजनाओं की कल्पना करें
- योजना: विचारों को छद्म कोड लॉजिक में बदलें
- कार्यान्वयन: निष्पादन योग्य Python कोड लिखें और मुख्य कार्यों को परिभाषित करें
- मूल्यांकन: उत्पन्न कोड को सैंडबॉक्स वातावरण में तैनात करें ताकि कार्यों को निष्पादित किया जा सके और प्रदर्शन मेट्रिक्स को फीडबैक दिया जा सके

विकास की प्रक्रिया में, ALMA एक विशाल डिज़ाइन ट्री उत्पन्न करेगा। पुनरावृत्तियों की संख्या बढ़ने के साथ, उत्पन्न मेमोरी कोड धीरे-धीरे सरल स्टोरेज लॉजिक से जटिल संज्ञानात्मक आर्किटेक्चर में विकसित होता है।

विकसित मेमोरी संरचना
ALMA द्वारा उत्पन्न मेमोरी डिज़ाइन ने विभिन्न कार्यों में अत्यधिक भिन्नता दिखाई:
- MiniHack (कालकोठरी साहसिक): एक जोखिम और इंटरैक्शन मॉड्यूल डिज़ाइन किया गया, जो स्पष्ट रूप से रक्त हानि और राक्षसों की आक्रामकता का कारण बनने वाले कार्यों को रिकॉर्ड करता है
- Baba Is AI (तार्किक पहेली): एक रणनीति पुस्तकालय डिज़ाइन किया गया, जो स्तरों को पार करने के लिए आवश्यक नियमों के संयोजन को रिकॉर्ड करता है

यह दर्शाता है कि AI कार्य विशेषताओं को पहचानने में सक्षम है: उत्तरजीविता खेलों को जोखिमों पर ध्यान देने की आवश्यकता होती है, और पहेली खेलों को नियम अमूर्तता पर ध्यान देने की आवश्यकता होती है।
प्रयोग के परिणाम
TextWorld, ALFWorld, MiniHack, Baba Is AI चार वातावरणों में ALMA की तुलना मुख्यधारा के बेसलाइन से की गई।
GPT-5-mini मॉडल पर, ALMA की औसत सफलता दर 53.9% तक पहुंच गई, जो G-Memory (46.0%) और Trajectory Retrieval (48.6%) से बेहतर है।

लागत दक्षता के मामले में, ALMA औसतन केवल 1,319 टोकन का उपभोग करता है, जबकि Trajectory Retrieval 9,149 टोकन तक का उपभोग करता है, और G-Memory भी 6,055 टोकन तक पहुंच गया। ALMA ने केवल लगभग 1/7 से 1/5 की लागत पर बेहतर प्रदर्शन प्राप्त किया।

निष्कर्ष
ALMA सॉफ्टवेयर 2.0 (न्यूरल नेटवर्क) से सॉफ्टवेयर 3.0 (AI-जनरेटिंग एल्गोरिदम) में संक्रमण की संभावना को दर्शाता है।
एजेंट विकास में, मेमोरी मॉड्यूल का डिज़ाइन लंबे समय से इंजीनियरों की अंतर्ज्ञान पर निर्भर रहा है। ALMA ने साबित किया है कि मेटा-लर्निंग और कोड जनरेशन के माध्यम से, AI विशिष्ट वातावरण के अनुसार स्वचालित रूप से इष्टतम मेमोरी आर्किटेक्चर की खोज कर सकता है।
संसाधन लिंक
- पेपर: https://arxiv.org/pdf/2602.07755
- कोड: https://github.com/zksha/alma
- प्रोजेक्ट होमपेज: https://yimingxiong.me/alma





