Μια επισκόπηση 107 σελίδων για RAG και Agent & LLM Memory
Σήμερα θα μοιραστώ μια τεχνική επισκόπηση 107 σελίδων από τα Πανεπιστήμια Renmin, Fudan, Peking κ.λπ., με τίτλο «Memory in the Age of AI Agents: A Survey Forms, Functions and Dynamics».
Διεύθυνση έργου: https://github.com/Shichun-Liu/Agent-Memory-Paper-List
Διεύθυνση εργασίας: https://arxiv.org/pdf/2512.13564

Τα τελευταία δύο χρόνια, έχουμε δει την εκπληκτική εξέλιξη των μεγάλων γλωσσικών μοντέλων (LLM) σε AI Agents. Από την Deep Research έως τη μηχανική λογισμικού, από την επιστημονική ανακάλυψη έως τη συνεργασία πολλαπλών πρακτόρων, αυτοί οι πράκτορες που βασίζονται σε βασικά μοντέλα προωθούν τα όρια της τεχνητής γενικής νοημοσύνης (AGI).
Αλλά ένα βασικό ερώτημα αναδύεται: Οι στατικές παράμετροι LLM δεν μπορούν να ενημερωθούν γρήγορα, πώς μπορούν οι πράκτορες να έχουν συνεχή μάθηση και προσαρμοστικότητα;
Η απάντηση είναι - Μνήμη (Memory).
"Η μνήμη είναι η βασική ικανότητα να μετατρέψουμε τα στατικά LLM σε πράκτορες που μπορούν να προσαρμοστούν συνεχώς μέσω της αλληλεπίδρασης με το περιβάλλον."

Figure 1 δείχνει το ενοποιημένο πλαίσιο ταξινόμησης που προτείνεται από την εργασία, το οποίο οργανώνει τη μνήμη του πράκτορα σύμφωνα με τρεις διαστάσεις: Μορφές (Forms), Λειτουργίες (Functions), Δυναμική (Dynamics) και αντιστοιχίζει αντιπροσωπευτικά συστήματα σε αυτό το σύστημα ταξινόμησης.

Η εργασία διακρίνει επίσης σαφώς τη μνήμη Agent από αρκετές στενά συνδεδεμένες αλλά ουσιαστικά διαφορετικές έννοιες: LLM memory, Retrieval Augmented Generation (RAG) και Context Engineering. Αν και όλα σχετίζονται με την αποθήκευση και τη χρήση πληροφοριών, υπάρχουν βασικές διαφορές στους στόχους, τους μηχανισμούς και τα σενάρια εφαρμογής.
Τεχνολογία μνήμης πράκτορα
-
Self-Evolving Memory: Memento, H2R
-
Multimodal Memory: Ella, ViloMem, M3-Agent
-
Latent Memory: MemoryLLM, M+, MemGen
-
Parametric Memory: Retroformer, Early experience
-
RL-enabled Memory: MemAgent, RMM, MemSearcher, MEM1, Mem-alpha, Memory-R1
Agent Memory vs. RAG
Σχετικές τεχνολογίες RAG:
-
Modular RAG: FlashRAG, ComposeRAG
-
Graph RAG: LightRAG, HippoRAG
-
Agentic RAG: PlanRAG, Self-RAG
Τόσο το RAG όσο και η μνήμη του πράκτορα περιλαμβάνουν την ανάκτηση πληροφοριών από εξωτερική αποθήκευση για την ενίσχυση των δυνατοτήτων του μοντέλου, αλλά υπάρχουν ουσιαστικές διαφορές στη φιλοσοφία σχεδιασμού:
ΧαρακτηριστικόRAGΜνήμη πράκτορα Βασικός στόχοςΠαροχή σχετικής υποστήριξης βασικών γνώσεων για το τρέχον ερώτημαΣυνεχής μάθηση και προσαρμοστική συμπεριφορά με την πάροδο του χρόνου Πηγή πληροφοριώνΣυνήθως στατική, προκατασκευασμένη βάση γνώσεωνΔυναμικά δημιουργημένες, εξατομικευμένες πληροφορίες από τις δικές του εμπειρίες αλληλεπίδρασης του πράκτορα Ενεργοποίηση ανάκτησηςΕνεργοποιείται παθητικά από το ερώτημα του χρήστηΟ πράκτορας αποφασίζει ενεργά πότε και τι να ανακτήσει Ενημέρωση πληροφοριώνΗ βάση γνώσεων ενημερώνεται συνήθως εκτός σύνδεσηςΕνημέρωση στο διαδίκτυο, συνεχής και επιλεκτική Βρόχος ανάδρασηςΧωρίς άμεσο μηχανισμό ανάδρασηςΣχηματίζει έναν κλειστό βρόχο με την αλληλεπίδραση με το περιβάλλον
Βασική διαφορά: Το RAG είναι ένα εργαλείο επέκτασης γνώσεων, ενώ η μνήμη του πράκτορα είναι ένας μηχανισμός μάθησης. Το RAG απαντά "Τι ξέρω", η μνήμη του πράκτορα απαντά "Τι έμαθα".
Agent Memory vs. LLM Memory
Σχετικές τεχνολογίες μνήμης LLM:
-
Attention KV management: Mixture-of-Memory
-
Long context processing: Mamba, Memformer, MoA, Sparseformer, NSA
ΔιάστασηLLM MemoryAgent Memory ΟρισμόςΕσωτερικευμένη γνώση στις παραμέτρους του μοντέλου ή προσωρινές πληροφορίες στο παράθυρο περιβάλλοντοςΈνα εξωτερικό σύστημα που υποστηρίζει τον πράκτορα να αλληλεπιδρά συνεχώς με το περιβάλλον, να μαθαίνει σε πολλαπλές εργασίες και να προσαρμόζεται μακροπρόθεσμα Χρονική κλίμακαΠεριορίζεται σε δεδομένα προ-εκπαίδευσης ή το τρέχον πλαίσιο διαλόγουΕκτείνεται σε πολλαπλές εργασίες, συνεδρίες και υποστηρίζει δια βίου μάθηση ΕνημερωσιμότηταΤο κόστος ενημέρωσης παραμέτρων είναι υψηλό, οι πληροφορίες περιβάλλοντος είναι ασταθείςΥποστηρίζει αποτελεσματική, επιλεκτική δυναμική ενημέρωση και εξέλιξη ΠρωτοβουλίαΑνταποκρίνεται παθητικά σε ερωτήματαΑποφασίζει ενεργά τι πληροφορίες να αποθηκεύσει, να ενημερώσει και να ανακτήσει Σύζευξη με το περιβάλλονΧωρίς άμεση αλληλεπίδραση με το περιβάλλονΕνσωματώνει βαθιά την ανάδραση του περιβάλλοντος και υποστηρίζει διαδραστική μάθηση
Βασική διαφορά: Η μνήμη LLM είναι ουσιαστικά στατική (σταθερές παράμετροι) ή παροδική (περιορισμένο περιβάλλον), ενώ η μνήμη του πράκτορα είναι δυναμική, επίμονη και συνδεδεμένη με το περιβάλλον.
Agent Memory vs. Context Engineering
Σχετικές τεχνολογίες Context Engineering:
-
Tool-integrated reasoning: ReTool, ToolLLM, Toolformer, VTool-R1, ToRL
-
Tool selection: AutoTool, VisTA
-
Communication protocol: ANP, A2A, MCP, Agora
ΠτυχήContext EngineeringAgent Memory ΕστίασηΒελτιστοποίηση εισόδου για έναν μόνο γύρο ή την τρέχουσα εργασίαΕπιμονή και χρήση πληροφοριών σε πολλούς γύρους και εργασίες Χρονική διάστασηΤρέχουσα συνεδρίαΜακροπρόθεσμο ιστορικό Επιλογή πληροφοριώνΣχεδιασμένοι από τον άνθρωπο ή ευρετικοί κανόνεςΑυτοματοποιημένος μηχανισμός σχηματισμού, εξέλιξης και ανάκτησης Διαχείριση κατάστασηςΧωρίς επίμονη κατάστασηΔιατηρεί ρητά μια εξελίξιμη κατάσταση μνήμης
Βασική διαφορά: Το Context Engineering είναι μια τεχνική βελτιστοποίησης προτροπών, ενώ η μνήμη του πράκτορα είναι ένα σύστημα διαχείρισης κατάστασης. Το πρώτο εστιάζει στο "Τι εισάγεται τώρα", το δεύτερο εστιάζει στο "Τι θυμήθηκα στο παρελθόν και πώς επηρεάζει το παρόν και το μέλλον".





