पॅरामीटर ट्यूनिंग न करता, फक्त कोड लिहा! जेफ क्लूने यांच्या टीमचे नवीन संशोधन: मेटा एजंटद्वारे मेमरी मॉड्यूलचे स्वयं-उत्क्रांती

सॉफ्टवेअर 3.0 च्या दिशेने, AI स्वतःच पायथन कोड लिहून मेंदू विकसित करत आहे.

ALMA

एजंट डेव्हलपमेंटच्या खोल पाण्यात, मेमरी (Memory) ही नेहमीच एक कठीण समस्या राहिली आहे.

जरी मूलभूत मॉडेलची क्षमता दिवसेंदिवस वाढत आहे, तरीही अनुमान प्रक्रियेमध्ये ते मुळात स्टेटलेस (Stateless) असतात, ज्यामुळे एजंटला सतत अनुभव जमा करण्याच्या क्षमतेवर मर्यादा येतात.

सध्या, RAG असो किंवा स्लाइडिंग विंडो सारांश, मेमरी हाताळण्याचे उद्योगातील मुख्य उपाय अजूनही मानवनिर्मित हेयुरिस्टिक नियमांवर (heuristic rules) आधारित आहेत.

हाताने तयार केलेले मेमरी मॉड्यूल अत्यंत नाजूक आणि स्थलांतरित करण्यास कठीण आहे. संवाद प्रणालीसाठी काळजीपूर्वक ट्यून केलेले प्रॉम्प्ट (Prompt) आणि पुनर्प्राप्ती लॉजिक, लांब पल्ल्याच्या नियोजन कार्यांमध्ये (जसे की ALFWorld) किंवा जटिल स्ट्रॅटेजी गेम्समध्ये अयशस्वी ठरतात.

ALMA आर्किटेक्चर

या अडचणीवर मात करण्यासाठी, UBC चे प्रोफेसर आणि OpenAI चे माजी संशोधक जेफ क्लूने यांच्या टीमने एक अनोखा उपाय शोधला आहे.

कोणती मेमरी रचना सर्वोत्तम आहे हे माहित नसल्यास, एजंटला स्वतःच पायथन कोड लिहून डिझाइन करू द्या.

यालाच ALMA (Automated meta-Learning of Memory designs for Agentic systems) म्हणतात, जे नुकतेच प्रकाशित झाले आहे.

ADAS पासून ALMA पर्यंत: कोड-आधारित ऑटोमेटेड डिझाइन

ALMA हे टीमने अलीकडेच स्वीकारलेल्या AI जनरेटिव्ह अल्गोरिदम तंत्रज्ञानाचा मार्ग आहे.

ADAS

ADAS (Automated Design of Agentic Systems) मध्ये, टीमने हे सिद्ध केले की एजंट आर्किटेक्चर डिझाइन करताना, कोड हा न्यूरल नेटवर्क वेट्स (neural network weights) किंवा सॉफ्ट प्रॉम्प्ट्स (Soft Prompts) पेक्षा अधिक कार्यक्षम शोध जागा आहे. कोड ट्युरिंग-पूर्ण (Turing-complete) आहे आणि त्यात उत्कृष्ट स्पष्टता आहे.

मेटा एजंट

त्यानंतर DGM (Darwin Gödel Machine) मध्ये, टीमने उत्क्रांती अल्गोरिदममधील (evolutionary algorithm) ओपन-एंडेड एक्सप्लोरेशनची (open-ended exploration) संकल्पना सादर केली, एक डिझाइन संग्रहणालय तयार केले आणि मॉडेलला नवीन उपाय शोधण्यासाठी प्रोत्साहित केले.

DGM

ALMA ने ADAS च्या कोड जनरेशन पॅराडाईम (code generation paradigm) आणि DGM च्या उत्क्रांती धोरणांचा वारसा घेतला आहे आणि ऍप्लिकेशनची व्याप्ती एजंट सिस्टीममधील सर्वात जास्त मानवी अनुभवावर अवलंबून असलेल्या घटकांवर केंद्रित केली आहे - मेमरी.

ALMA ची कार्यप्रणाली

ALMA च्या ऑपरेशनची यंत्रणा एक मानक मेटा-लर्निंग क्लोज्ड लूप (meta-learning closed loop) आहे. मेटा एजंट आता थेट कार्ये हाताळत नाही, तर प्रोग्रामिंगसाठी जबाबदार आहे. प्रक्रियेत चार टप्पे असतात:

संकल्पना: सध्याच्या मेमरी डिझाइन आर्काइव्हचे विश्लेषण करा आणि मागील कामगिरीच्या आधारावर सुधारणा योजना तयार करा.
नियोजन: कल्पनेचे स्यूडोकोड लॉजिकमध्ये (pseudocode logic) रूपांतर करा.
अंमलबजावणी: कार्यान्वित करण्यायोग्य पायथन कोड लिहा आणि मुख्य कार्ये परिभाषित करा.
मूल्यांकन: व्युत्पन्न केलेला कोड सँडबॉक्स वातावरणात (sandbox environment) कार्यान्वित करा आणि कार्यप्रदर्शन मेट्रिक्सचा (performance metrics) अभिप्राय द्या.

कार्यप्रवाह

उत्क्रांतीच्या प्रक्रियेत, ALMA एक मोठे डिझाइन ट्री (design tree) तयार करेल. पुनरावृत्तीच्या पायऱ्या वाढल्यामुळे, व्युत्पन्न केलेला मेमरी कोड हळूहळू साध्या स्टोरेज लॉजिकपासून (storage logic) जटिल बोधात्मक आर्किटेक्चरमध्ये (cognitive architecture) विकसित होतो.

उत्क्रांती ट्री

उत्क्रांत झालेली मेमरी रचना

ALMA द्वारे व्युत्पन्न केलेल्या मेमरी डिझाइनने वेगवेगळ्या कार्यांमध्ये मोठी भिन्नता दर्शविली आहे:

MiniHack (तुरुंग साहस): रिस्क अँड इंटरॅक्शन (Risk and Interaction) मॉड्यूल डिझाइन केले, जे रक्त कमी करणाऱ्या क्रिया आणि राक्षसांच्या आक्रमकतेची स्पष्टपणे नोंद ठेवते.
Baba Is AI (तार्किक कोडे): स्ट्रॅटेजी लायब्ररी (Strategy Library) डिझाइन केली, जी स्तर पूर्ण करण्यासाठी आवश्यक नियमांचे संयोजन रेकॉर्ड करते.

मेमरी रचना

हे सूचित करते की AI कार्य वैशिष्ट्ये ओळखण्यास सक्षम आहे: अस्तित्व टिकवून ठेवणाऱ्या गेम्सना (survival games) धोक्यांवर लक्ष केंद्रित करणे आवश्यक आहे, तर कोडे गेम्सना (puzzle games) नियमांच्या अमूर्ततेवर (rule abstraction) लक्ष केंद्रित करणे आवश्यक आहे.

प्रायोगिक निकाल

TextWorld, ALFWorld, MiniHack, Baba Is AI या चार वातावरणांमध्ये ALMA ची तुलना मुख्य बेसलाइनशी (baseline) करण्यात आली.

GPT-5-mini मॉडेलवर, ALMA चा सरासरी यश दर 53.9% होता, जो G-Memory (46.0%) आणि Trajectory Retrieval (48.6%) पेक्षा जास्त आहे.

प्रायोगिक निकाल

खर्च कार्यक्षमतेच्या दृष्टीने, ALMA ला सरासरी फक्त 1,319 टोकन लागतात, तर Trajectory Retrieval ला 9,149 टोकन आणि G-Memory ला 6,055 टोकन लागतात. ALMA ने फक्त 1/7 ते 1/5 खर्चामध्ये अधिक चांगले कार्यप्रदर्शन मिळवले.

खर्च कार्यक्षमता

निष्कर्ष

ALMA सॉफ्टवेअर 2.0 (न्यूरल नेटवर्क्स) पासून सॉफ्टवेअर 3.0 (AI-जनरेटिंग अल्गोरिदम) मध्ये संक्रमणाची शक्यता दर्शवते.

एजंट डेव्हलपमेंटमध्ये, मेमरी मॉड्यूलची रचना दीर्घकाळापासून अभियंत्यांच्या (engineers) अंतर्ज्ञानावर अवलंबून आहे. ALMA ने हे सिद्ध केले आहे की मेटा-लर्निंग (meta-learning) आणि कोड जनरेशनद्वारे (code generation), AI विशिष्ट वातावरणानुसार सर्वोत्तम मेमरी आर्किटेक्चर स्वयंचलितपणे शोधू शकते.

संसाधने

शोधनिबंध: https://arxiv.org/pdf/2602.07755
कोड: https://github.com/zksha/alma
प्रकल्प मुख्यपृष्ठ: https://yimingxiong.me/alma

ADAS पासून ALMA पर्यंत: कोड-आधारित ऑटोमेटेड डिझाइन

ALMA ची कार्यप्रणाली

उत्क्रांत झालेली मेमरी रचना

प्रायोगिक निकाल

निष्कर्ष

संसाधने

You Might Also Like

Claude Code Buddy सुधारणा मार्गदर्शक: कसे मिळवायचे चमकदार किंवदंती स्तराचे पाळीव प्राणी

Obsidian ने Defuddle लॉन्च केला, Obsidian Web Clipper ला एक नवीन उंचीवर नेले

2026, स्वतःला 'आत्मशिस्त' देण्याची गरज नाही! या 8 लहान गोष्टी करा, आरोग्य आपोआप येईल

त्या मेहनतीने वजन कमी करण्याचा प्रयत्न करणाऱ्या मातांना, नक्कीच इथेच अडचण येते

AI ब्राउझर 24 तास स्थिर चालवण्याची मार्गदर्शिका