107 পৃষ্ঠার RAG এবং Agent ও LLM মেমরি বিষয়ক একটি পর্যালোচনা
আজকে আমি রেনমিন ইউনিভার্সিটি, ফুদান ইউনিভার্সিটি, পিকিং ইউনিভার্সিটি ইত্যাদি কর্তৃক প্রস্তুতকৃত ১০৭ পৃষ্ঠার একটি টেকনিক্যাল পর্যালোচনা শেয়ার করছি, যার শিরোনাম হল "Memory in the Age of AI Agents: A Survey Forms, Functions and Dynamics"।
প্রজেক্টের ঠিকানা: https://github.com/Shichun-Liu/Agent-Memory-Paper-List
গবেষণাপত্রের ঠিকানা: https://arxiv.org/pdf/2512.13564

গত দুই বছরে, আমরা দেখেছি লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) থেকে AI এজেন্টের (AI Agents) এক বিস্ময়কর বিবর্তন। গভীর গবেষণা থেকে শুরু করে সফটওয়্যার ইঞ্জিনিয়ারিং, বিজ্ঞান আবিষ্কার থেকে মাল্টি-এজেন্ট সহযোগিতা পর্যন্ত, এই ভিত্তি মডেল-ভিত্তিক এজেন্টগুলো কৃত্রিম সাধারণ বুদ্ধিমত্তার (AGI) সীমানা প্রসারিত করছে।
কিন্তু একটি মূল প্রশ্ন উঠেছে: স্ট্যাটিক LLM প্যারামিটারগুলো দ্রুত আপডেট করা যায় না, তাহলে কীভাবে এজেন্টকে ক্রমাগত শেখার এবং খাপ খাইয়ে নেওয়ার ক্ষমতা দেওয়া যায়?
উত্তর হল - মেমরি (Memory)।
"মেমরি হল সেই গুরুত্বপূর্ণ ক্ষমতা যা স্ট্যাটিক LLM-কে এমন একটি এজেন্টে রূপান্তরিত করে যা পরিবেশের সাথে মিথস্ক্রিয়ার মাধ্যমে ক্রমাগত খাপ খাইয়ে নিতে পারে।"

Figure 1-এ গবেষণাপত্রে প্রস্তাবিত একটি ইউনিফাইড ক্লাসিফিকেশন ফ্রেমওয়ার্ক দেখানো হয়েছে, যা এজেন্ট মেমরিকে ফর্ম (Forms), ফাংশন (Functions), এবং ডায়নামিক্স (Dynamics) - এই তিনটি মাত্রার ভিত্তিতে সংগঠিত করে এবং প্রতিনিধিত্বকারী সিস্টেমগুলোকে এই ক্লাসিফিকেশন সিস্টেমে ম্যাপ করে।

গবেষণাপত্রটি এজেন্ট মেমরি এবং কয়েকটি ঘনিষ্ঠভাবে সম্পর্কিত কিন্তু মূলত ভিন্ন ধারণার মধ্যে স্পষ্ট পার্থক্য করে: LLM মেমরি, রিট্রিভাল অগমেন্টেড জেনারেশন (RAG) এবং কনটেক্সট ইঞ্জিনিয়ারিং। যদিও এই সবগুলোই তথ্যের স্টোরেজ এবং ব্যবহার সম্পর্কিত, তবে এদের লক্ষ্য, প্রক্রিয়া এবং প্রয়োগের ক্ষেত্রে গুরুত্বপূর্ণ পার্থক্য রয়েছে।
এজেন্ট মেমরি টেকনিক
-
Self-Evolving Memory: Memento, H2R
-
Multimodal Memory: Ella, ViloMem, M3-Agent
-
Latent Memory: MemoryLLM, M+, MemGen
-
Parametric Memory: Retroformer, Early experience
-
RL-enabled Memory: MemAgent, RMM, MemSearcher, MEM1, Mem-alpha, Memory-R1
এজেন্ট মেমরি বনাম RAG
RAG সম্পর্কিত টেকনিক:
-
Modular RAG: FlashRAG, ComposeRAG
-
Graph RAG: LightRAG, HippoRAG
-
Agentic RAG: PlanRAG, Self-RAG
RAG এবং এজেন্ট মেমরি উভয় ক্ষেত্রেই মডেলের ক্ষমতা বাড়ানোর জন্য বাহ্যিক স্টোরেজ থেকে তথ্য পুনরুদ্ধার করা হয়, তবে এই দুটির ডিজাইন দর্শনে মৌলিক পার্থক্য রয়েছে:
| বৈশিষ্ট্য | RAG | এজেন্ট মেমরি |
|---|---|---|
| মূল লক্ষ্য | বর্তমান প্রশ্নের জন্য প্রাসঙ্গিক ব্যাকগ্রাউন্ড জ্ঞান সরবরাহ করা | সময়ের সাথে ক্রমাগত শেখা এবং অভিযোজিত আচরণ করা |
| তথ্যের উৎস | সাধারণত স্ট্যাটিক, পূর্ব-নির্মিত জ্ঞান ভান্ডার | গতিশীলভাবে তৈরি, এজেন্টের নিজস্ব মিথস্ক্রিয়া অভিজ্ঞতার ব্যক্তিগতকৃত তথ্য |
| পুনরুদ্ধারের ট্রিগার | ব্যবহারকারীর প্রশ্নের দ্বারা নিষ্ক্রিয়ভাবে ট্রিগার করা | এজেন্ট কখন এবং কী পুনরুদ্ধার করবে তা সক্রিয়ভাবে সিদ্ধান্ত নেয় |
| তথ্য আপডেট | জ্ঞান ভান্ডার সাধারণত অফলাইনে আপডেট করা হয় | অনলাইনে, ক্রমাগত এবং নির্বাচনীভাবে আপডেট করা হয় |
| ফিডব্যাক লুপ | সরাসরি ফিডব্যাক মেকানিজম নেই | পরিবেশের সাথে মিথস্ক্রিয়ার মাধ্যমে ক্লোজড লুপ তৈরি করে |
মূল পার্থক্য: RAG হল জ্ঞান সম্প্রসারণের সরঞ্জাম, যেখানে এজেন্ট মেমরি হল শেখার প্রক্রিয়া। RAG উত্তর দেয় "আমি কী জানি", আর এজেন্ট মেমরি উত্তর দেয় "আমি কী শিখেছি"।
এজেন্ট মেমরি বনাম LLM মেমরি
LLM মেমরি সম্পর্কিত টেকনিক:
-
Attention KV management: Mixture-of-Memory
-
Long context processing: Mamba, Memformer, MoA, Sparseformer, NSA
| মাত্রা | LLM মেমরি | এজেন্ট মেমরি |
|---|---|---|
| সংজ্ঞা | মডেল প্যারামিটারে অন্তর্নিহিত জ্ঞান, অথবা কনটেক্সট উইন্ডোতে অস্থায়ী তথ্য | পরিবেশের সাথে এজেন্টের ক্রমাগত মিথস্ক্রিয়া, টাস্ক শেখা এবং দীর্ঘমেয়াদী অভিযোজন সমর্থন করার জন্য বাহ্যিক সিস্টেম |
| সময়কাল | প্রি-ট্রেনিং ডেটা বা বর্তমান কথোপকথনের কনটেক্সটের মধ্যে সীমাবদ্ধ | একাধিক টাস্ক, সেশন জুড়ে বিস্তৃত, আজীবন শেখা সমর্থন করে |
| আপডেট করার ক্ষমতা | প্যারামিটার আপডেটের খরচ অনেক বেশি, কনটেক্সট তথ্য সহজেই হারিয়ে যায় | দক্ষ, নির্বাচনী এবং গতিশীল আপডেট ও বিবর্তন সমর্থন করে |
| সক্রিয়তা | প্রশ্নের প্রতি নিষ্ক্রিয়ভাবে সাড়া দেয় | কী তথ্য সংরক্ষণ, আপডেট এবং পুনরুদ্ধার করতে হবে তা সক্রিয়ভাবে সিদ্ধান্ত নেয় |
| পরিবেশের সাথে সম্পর্ক | পরিবেশের সাথে সরাসরি মিথস্ক্রিয়া নেই | পরিবেশের ফিডব্যাকের সাথে গভীরভাবে একত্রিত, ইন্টারেক্টিভ লার্নিং সমর্থন করে |
মূল পার্থক্য: LLM মেমরি মূলত স্ট্যাটিক (প্যারামিটার ফিক্সড) অথবা ক্ষণস্থায়ী (কনটেক্সট সীমিত), যেখানে এজেন্ট মেমরি হল ডায়নামিক, দীর্ঘস্থায়ী এবং পরিবেশ-সংযুক্ত।
এজেন্ট মেমরি বনাম কনটেক্সট ইঞ্জিনিয়ারিং
কনটেক্সট ইঞ্জিনিয়ারিং সম্পর্কিত টেকনিক:
-
Tool-integrated reasoning: ReTool, ToolLLM, Toolformer, VTool-R1, ToRL
-
Tool selection: AutoTool, VisTA
-
Communication protocol: ANP, A2A, MCP, Agora
| দিক | কনটেক্সট ইঞ্জিনিয়ারিং | এজেন্ট মেমরি |
|---|---|---|
| ফোকাস | একক রাউন্ড বা বর্তমান টাস্কের ইনপুট অপটিমাইজেশন | একাধিক রাউন্ড, একাধিক টাস্কের তথ্যের স্থায়ীত্ব এবং ব্যবহার |
| সময়কাল | বর্তমান সেশন | দীর্ঘমেয়াদী ইতিহাস |
| তথ্য নির্বাচন | মানুষের ডিজাইন করা বা হিউরিস্টিক নিয়ম | স্বয়ংক্রিয়ভাবে গঠন, বিবর্তন এবং পুনরুদ্ধারের প্রক্রিয়া |
| স্টেট ম্যানেজমেন্ট | কোনো স্থায়ী স্টেট নেই | বিবর্তনযোগ্য মেমরি স্টেট স্পষ্টভাবে রক্ষণাবেক্ষণ করা হয় |
মূল পার্থক্য: কনটেক্সট ইঞ্জিনিয়ারিং হল প্রম্পট অপটিমাইজেশন টেকনিক, যেখানে এজেন্ট মেমরি হল স্টেট ম্যানেজমেন্ট সিস্টেম। প্রথমটি ফোকাস করে "এখন কী ইনপুট দেব", আর দ্বিতীয়টি ফোকাস করে "অতীতে কী মনে রেখেছি, যা বর্তমান এবং ভবিষ্যৎকে প্রভাবিত করে"।





