पॅरामीटर ट्यूनिंग न करता, फक्त कोड लिहा! जेफ क्लूने यांच्या टीमचे नवीन संशोधन: मेटा एजंटद्वारे मेमरी मॉड्यूलचे स्वयं-उत्क्रांती
पॅरामीटर ट्यूनिंग न करता, फक्त कोड लिहा! जेफ क्लूने यांच्या टीमचे नवीन संशोधन: मेटा एजंटद्वारे मेमरी मॉड्यूलचे स्वयं-उत्क्रांती
सॉफ्टवेअर 3.0 च्या दिशेने, AI स्वतःच पायथन कोड लिहून मेंदू विकसित करत आहे.

एजंट डेव्हलपमेंटच्या खोल पाण्यात, मेमरी (Memory) ही नेहमीच एक कठीण समस्या राहिली आहे.
जरी मूलभूत मॉडेलची क्षमता दिवसेंदिवस वाढत आहे, तरीही अनुमान प्रक्रियेमध्ये ते मुळात स्टेटलेस (Stateless) असतात, ज्यामुळे एजंटला सतत अनुभव जमा करण्याच्या क्षमतेवर मर्यादा येतात.
सध्या, RAG असो किंवा स्लाइडिंग विंडो सारांश, मेमरी हाताळण्याचे उद्योगातील मुख्य उपाय अजूनही मानवनिर्मित हेयुरिस्टिक नियमांवर (heuristic rules) आधारित आहेत.
हाताने तयार केलेले मेमरी मॉड्यूल अत्यंत नाजूक आणि स्थलांतरित करण्यास कठीण आहे. संवाद प्रणालीसाठी काळजीपूर्वक ट्यून केलेले प्रॉम्प्ट (Prompt) आणि पुनर्प्राप्ती लॉजिक, लांब पल्ल्याच्या नियोजन कार्यांमध्ये (जसे की ALFWorld) किंवा जटिल स्ट्रॅटेजी गेम्समध्ये अयशस्वी ठरतात.

या अडचणीवर मात करण्यासाठी, UBC चे प्रोफेसर आणि OpenAI चे माजी संशोधक जेफ क्लूने यांच्या टीमने एक अनोखा उपाय शोधला आहे.
कोणती मेमरी रचना सर्वोत्तम आहे हे माहित नसल्यास, एजंटला स्वतःच पायथन कोड लिहून डिझाइन करू द्या.
यालाच ALMA (Automated meta-Learning of Memory designs for Agentic systems) म्हणतात, जे नुकतेच प्रकाशित झाले आहे.
ADAS पासून ALMA पर्यंत: कोड-आधारित ऑटोमेटेड डिझाइन
ALMA हे टीमने अलीकडेच स्वीकारलेल्या AI जनरेटिव्ह अल्गोरिदम तंत्रज्ञानाचा मार्ग आहे.

ADAS (Automated Design of Agentic Systems) मध्ये, टीमने हे सिद्ध केले की एजंट आर्किटेक्चर डिझाइन करताना, कोड हा न्यूरल नेटवर्क वेट्स (neural network weights) किंवा सॉफ्ट प्रॉम्प्ट्स (Soft Prompts) पेक्षा अधिक कार्यक्षम शोध जागा आहे. कोड ट्युरिंग-पूर्ण (Turing-complete) आहे आणि त्यात उत्कृष्ट स्पष्टता आहे.

त्यानंतर DGM (Darwin Gödel Machine) मध्ये, टीमने उत्क्रांती अल्गोरिदममधील (evolutionary algorithm) ओपन-एंडेड एक्सप्लोरेशनची (open-ended exploration) संकल्पना सादर केली, एक डिझाइन संग्रहणालय तयार केले आणि मॉडेलला नवीन उपाय शोधण्यासाठी प्रोत्साहित केले.

ALMA ने ADAS च्या कोड जनरेशन पॅराडाईम (code generation paradigm) आणि DGM च्या उत्क्रांती धोरणांचा वारसा घेतला आहे आणि ऍप्लिकेशनची व्याप्ती एजंट सिस्टीममधील सर्वात जास्त मानवी अनुभवावर अवलंबून असलेल्या घटकांवर केंद्रित केली आहे - मेमरी.
ALMA ची कार्यप्रणाली
ALMA च्या ऑपरेशनची यंत्रणा एक मानक मेटा-लर्निंग क्लोज्ड लूप (meta-learning closed loop) आहे. मेटा एजंट आता थेट कार्ये हाताळत नाही, तर प्रोग्रामिंगसाठी जबाबदार आहे. प्रक्रियेत चार टप्पे असतात:
- संकल्पना: सध्याच्या मेमरी डिझाइन आर्काइव्हचे विश्लेषण करा आणि मागील कामगिरीच्या आधारावर सुधारणा योजना तयार करा.
- नियोजन: कल्पनेचे स्यूडोकोड लॉजिकमध्ये (pseudocode logic) रूपांतर करा.
- अंमलबजावणी: कार्यान्वित करण्यायोग्य पायथन कोड लिहा आणि मुख्य कार्ये परिभाषित करा.
- मूल्यांकन: व्युत्पन्न केलेला कोड सँडबॉक्स वातावरणात (sandbox environment) कार्यान्वित करा आणि कार्यप्रदर्शन मेट्रिक्सचा (performance metrics) अभिप्राय द्या.

उत्क्रांतीच्या प्रक्रियेत, ALMA एक मोठे डिझाइन ट्री (design tree) तयार करेल. पुनरावृत्तीच्या पायऱ्या वाढल्यामुळे, व्युत्पन्न केलेला मेमरी कोड हळूहळू साध्या स्टोरेज लॉजिकपासून (storage logic) जटिल बोधात्मक आर्किटेक्चरमध्ये (cognitive architecture) विकसित होतो.

उत्क्रांत झालेली मेमरी रचना
ALMA द्वारे व्युत्पन्न केलेल्या मेमरी डिझाइनने वेगवेगळ्या कार्यांमध्ये मोठी भिन्नता दर्शविली आहे:
- MiniHack (तुरुंग साहस): रिस्क अँड इंटरॅक्शन (Risk and Interaction) मॉड्यूल डिझाइन केले, जे रक्त कमी करणाऱ्या क्रिया आणि राक्षसांच्या आक्रमकतेची स्पष्टपणे नोंद ठेवते.
- Baba Is AI (तार्किक कोडे): स्ट्रॅटेजी लायब्ररी (Strategy Library) डिझाइन केली, जी स्तर पूर्ण करण्यासाठी आवश्यक नियमांचे संयोजन रेकॉर्ड करते.

हे सूचित करते की AI कार्य वैशिष्ट्ये ओळखण्यास सक्षम आहे: अस्तित्व टिकवून ठेवणाऱ्या गेम्सना (survival games) धोक्यांवर लक्ष केंद्रित करणे आवश्यक आहे, तर कोडे गेम्सना (puzzle games) नियमांच्या अमूर्ततेवर (rule abstraction) लक्ष केंद्रित करणे आवश्यक आहे.
प्रायोगिक निकाल
TextWorld, ALFWorld, MiniHack, Baba Is AI या चार वातावरणांमध्ये ALMA ची तुलना मुख्य बेसलाइनशी (baseline) करण्यात आली.
GPT-5-mini मॉडेलवर, ALMA चा सरासरी यश दर 53.9% होता, जो G-Memory (46.0%) आणि Trajectory Retrieval (48.6%) पेक्षा जास्त आहे.

खर्च कार्यक्षमतेच्या दृष्टीने, ALMA ला सरासरी फक्त 1,319 टोकन लागतात, तर Trajectory Retrieval ला 9,149 टोकन आणि G-Memory ला 6,055 टोकन लागतात. ALMA ने फक्त 1/7 ते 1/5 खर्चामध्ये अधिक चांगले कार्यप्रदर्शन मिळवले.

निष्कर्ष
ALMA सॉफ्टवेअर 2.0 (न्यूरल नेटवर्क्स) पासून सॉफ्टवेअर 3.0 (AI-जनरेटिंग अल्गोरिदम) मध्ये संक्रमणाची शक्यता दर्शवते.
एजंट डेव्हलपमेंटमध्ये, मेमरी मॉड्यूलची रचना दीर्घकाळापासून अभियंत्यांच्या (engineers) अंतर्ज्ञानावर अवलंबून आहे. ALMA ने हे सिद्ध केले आहे की मेटा-लर्निंग (meta-learning) आणि कोड जनरेशनद्वारे (code generation), AI विशिष्ट वातावरणानुसार सर्वोत्तम मेमरी आर्किटेक्चर स्वयंचलितपणे शोधू शकते.
संसाधने
- शोधनिबंध: https://arxiv.org/pdf/2602.07755
- कोड: https://github.com/zksha/alma
- प्रकल्प मुख्यपृष्ठ: https://yimingxiong.me/alma





