107 oldalas RAG és Agent&LLM memória áttekintés
Ma megosztom a Renmin Egyetem, a Fudan Egyetem, a Pekingi Egyetem és mások 107 oldalas technikai áttekintését: "Memória a MI Ügynökök korában: Felmérés Formákról, Funkciókról és Dinamikáról".
Projekt címe: https://github.com/Shichun-Liu/Agent-Memory-Paper-List
Tanulmány címe: https://arxiv.org/pdf/2512.13564

Az elmúlt két évben tanúi voltunk a nagyméretű nyelvi modellek (LLM) lenyűgöző evolúciójának a MI intelligens ügynökök (AI Agents) felé. A Deep Research-től a szoftverfejlesztésig, a tudományos felfedezésektől a több ügynökös együttműködésig ezek az alapmodelleken alapuló intelligens ügynökök feszegetik az általános mesterséges intelligencia (AGI) határait.
De felmerül egy központi kérdés: Hogyan tegyük lehetővé az intelligens ügynökök számára a folyamatos tanulást és alkalmazkodást, ha a statikus LLM paraméterek nem frissíthetők gyorsan?
A válasz a memória.
"A memória az a kulcsfontosságú képesség, amely a statikus LLM-eket olyan intelligens ügynökökké alakítja, amelyek képesek folyamatosan alkalmazkodni a környezettel való interakció révén."

Az 1. ábra bemutatja a tanulmány által javasolt egységes osztályozási keretrendszert, amely az intelligens ügynökök memóriáját formák (Forms), funkciók (Functions) és dinamika (Dynamics) dimenziók szerint rendezi, és a reprezentatív rendszereket ehhez az osztályozási rendszerhez rendeli.

A tanulmány egyértelműen megkülönbözteti az Agent Memory-t néhány szorosan kapcsolódó, de lényegében eltérő fogalomtól: LLM memória, Retrieval Augmented Generation (RAG) és context engineering. Bár mindegyik az információ tárolásával és felhasználásával kapcsolatos, kulcsfontosságú különbségek vannak a célok, mechanizmusok és alkalmazási területek között.
Intelligens ügynök memória technológiák
-
Self-Evolving Memory: Memento, H2R
-
Multimodal Memory: Ella, ViloMem, M3-Agent
-
Latent Memory: MemoryLLM, M+, MemGen
-
Parametric Memory: Retroformer, Early experience
-
RL-enabled Memory: MemAgent, RMM, MemSearcher, MEM1, Mem-alpha, Memory-R1
Intelligens ügynök memória vs. RAG
RAG kapcsolódó technológiák:
-
Modular RAG: FlashRAG, ComposeRAG
-
Graph RAG: LightRAG, HippoRAG
-
Agentic RAG: PlanRAG, Self-RAG
A RAG és az intelligens ügynök memória is magában foglalja az információk külső tárolóból történő lekérését a modell képességeinek javítása érdekében, de a kettő között lényeges különbség van a tervezési filozófiában:
JellemzőRAGIntelligens ügynök memória Fő célReleváns háttérinformációk biztosítása a jelenlegi lekérdezéshezFolyamatos tanulás és adaptív viselkedés az idő múlásával InformációforrásÁltalában statikus, előre elkészített tudásbázisDinamikusan generált, az intelligens ügynök saját interakciós tapasztalataiból származó személyre szabott információk Lekérdezés indításaA felhasználói lekérdezés passzívan indítja elAz intelligens ügynök proaktívan dönti el, hogy mikor és mit kérdezzen le InformációfrissítésA tudásbázis általában offline frissülOnline, folyamatos és szelektív frissítés Visszacsatolási hurokNincs közvetlen visszacsatolási mechanizmusZárt hurkot alkot a környezettel való interakcióval
Fő különbség: A RAG egy tudásbővítő eszköz, míg az intelligens ügynök memória egy tanulási mechanizmus. A RAG arra a kérdésre válaszol, hogy "Mit tudok?", míg az intelligens ügynök memória arra, hogy "Mit tanultam?".
Intelligens ügynök memória vs. LLM memória
LLM memória kapcsolódó technológiák:
-
Attention KV management: Mixture-of-Memory
-
Long context processing: Mamba, Memformer, MoA, Sparseformer, NSA
DimenzióLLM memóriaIntelligens ügynök memória DefinícióA modell paramétereiben internalizált tudás, vagy a kontextusablakban lévő ideiglenes információkAz intelligens ügynökök folyamatos interakcióját, feladatok közötti tanulását és hosszú távú alkalmazkodását támogató külső rendszer IdőskálaA betanítási adatokra vagy a jelenlegi párbeszéd kontextusára korlátozódikTöbb feladaton és munkameneten átível, támogatja az élethosszig tartó tanulást FrissíthetőségA paraméterek frissítése költséges, a kontextusinformációk könnyen elvesznekHatékony, szelektív dinamikus frissítést és evolúciót támogat ProaktivitásPasszívan válaszol a lekérdezésekreProaktívan dönti el, hogy mit tároljon, frissítsen és kérdezzen le Környezettel való kapcsolatNincs közvetlen interakció a környezettelMélyen integrálva a környezeti visszajelzéssel, támogatja az interaktív tanulást
Fő különbség: Az LLM memória lényegében statikus (a paraméterek rögzítettek) vagy rövid életű (a kontextus korlátozott), míg az intelligens ügynök memória dinamikus, tartós és környezetfüggő.
Intelligens ügynök memória vs. Kontextusmérnökség
Kontextusmérnökség kapcsolódó technológiák:
-
Tool-integrated reasoning: ReTool, ToolLLM, Toolformer, VTool-R1, ToRL
-
Tool selection: AutoTool, VisTA
-
Communication protocol: ANP, A2A, MCP, Agora
SzempontKontextusmérnökségIntelligens ügynök memória FókuszEgyetlen fordulóra vagy a jelenlegi feladat bemenetének optimalizálásáraTöbb fordulón és feladaton átívelő információk tartósítása és felhasználása IdődimenzióJelenlegi munkamenetHosszú távú történelem InformációválasztásEmber által tervezett vagy heurisztikus szabályokAutomatizált formálási, evolúciós és lekérdezési mechanizmusok ÁllapotkezelésNincs tartós állapotFejleszthető memóriaállapotot tart fenn explicit módon
Fő különbség: A kontextusmérnökség egy prompt optimalizálási technika, míg az intelligens ügynök memória egy állapotkezelő rendszer. Az előbbi arra a kérdésre összpontosít, hogy "Mit írjunk be most?", míg az utóbbi arra, hogy "Mit jegyeztünk meg a múltban, és hogyan befolyásolja ez a jelent és a jövőt?".





