Una ressenya de 107 pàgines sobre RAG i la memòria d'Agent&LLM

2/15/2026
4 min read

Avui comparteixo una ressenya tècnica de 107 pàgines de la Universitat del Poble, Fudan, Pequín, etc., titulada "Memory in the Age of AI Agents: A Survey Forms, Functions and Dynamics".

Adreça del projecte: https://github.com/Shichun-Liu/Agent-Memory-Paper-List

Adreça de l'article: https://arxiv.org/pdf/2512.13564

En els darrers dos anys, hem estat testimonis de la sorprenent evolució dels models de llenguatge grans (LLM) cap a agents d'IA (AI Agents). Des de la investigació profunda fins a l'enginyeria de programari, des del descobriment científic fins a la col·laboració multiagent, aquests agents basats en models fonamentals estan impulsant les fronteres de la intel·ligència artificial general (AGI).

Però sorgeix una pregunta central: Com poden els agents tenir la capacitat d'aprendre i adaptar-se contínuament quan els paràmetres estàtics de LLM no es poden actualitzar ràpidament?

La resposta és: Memòria (Memory).

"La memòria és la capacitat clau per transformar els LLM estàtics en agents intel·ligents capaços d'adaptar-se contínuament mitjançant la interacció amb l'entorn."

La Figura 1 mostra el marc de classificació unificat proposat a l'article, que organitza la memòria de l'agent segons tres dimensions: Formes (Forms), Funcions (Functions) i Dinàmica (Dynamics), i assigna sistemes representatius a aquest sistema de classificació.

L'article també distingeix clarament entre la memòria de l'agent i diversos conceptes estretament relacionats però essencialment diferents: Memòria LLM, Generació augmentada per recuperació (RAG) i Enginyeria de context. Tot i que tots estan relacionats amb l'emmagatzematge i la utilització de la informació, hi ha diferències clau en els objectius, els mecanismes i els escenaris d'aplicació.

Tecnologia de memòria d'agent

  • Self-Evolving Memory: Memento, H2R

  • Multimodal Memory: Ella, ViloMem, M3-Agent

  • Latent Memory: MemoryLLM, M+, MemGen

  • Parametric Memory: Retroformer, Early experience

  • RL-enabled Memory: MemAgent, RMM, MemSearcher, MEM1, Mem-alpha, Memory-R1

Memòria d'agent vs. RAG

Tecnologies relacionades amb RAG:

  • Modular RAG: FlashRAG, ComposeRAG

  • Graph RAG: LightRAG, HippoRAG

  • Agentic RAG: PlanRAG, Self-RAG

La RAG i la memòria d'agent impliquen la recuperació d'informació d'emmagatzematge extern per millorar les capacitats del model, però hi ha una diferència essencial en la filosofia de disseny entre els dos:

CaracterísticaRAGMemòria d'agent Objectiu principalProporcionar coneixement de fons rellevant per a la consulta actualAprenentatge continu i comportament adaptatiu al llarg del temps Font d'informacióNormalment bases de coneixement estàtiques i preconstruïdesInformació personalitzada generada dinàmicament a partir de l'experiència d'interacció de l'agent Activació de la recuperacióActivada passivament per la consulta de l'usuariL'agent decideix activament quan i què recuperar Actualització de la informacióLa base de coneixement s'actualitza normalment fora de líniaActualització en línia, contínua i selectiva Bucle de retroalimentacióSense mecanisme de retroalimentació directaForma un bucle tancat amb la interacció amb l'entorn

Diferència clau: RAG és una eina d'expansió del coneixement, mentre que la memòria d'agent és un mecanisme d'aprenentatge. RAG respon "Què sé", la memòria d'agent respon "Què he après".

Memòria d'agent vs. Memòria LLM

Tecnologies relacionades amb la memòria LLM:

  • Attention KV management: Mixture-of-Memory

  • Long context processing: Mamba, Memformer, MoA, Sparseformer, NSA

DimensióMemòria LLMMemòria d'agent DefinicióConeixement internalitzat en els paràmetres del model o informació temporal a la finestra de contextSistema extern que admet la interacció contínua de l'agent amb l'entorn, l'aprenentatge entre tasques i l'adaptació a llarg termini Escala de tempsLimitat a les dades de preentrenament o al context de la conversa actualS'estén a través de múltiples tasques i sessions, admet l'aprenentatge permanent ActualitzabilitatL'actualització dels paràmetres és costosa, la informació del context és volàtilAdmet una actualització i evolució dinàmica, eficient i selectiva ProactivitatRespon passivament a les consultesDecideix activament quina informació emmagatzemar, actualitzar i recuperar Acollament amb l'entornSense interacció directa amb l'entornProfundament integrat amb la retroalimentació de l'entorn, admet l'aprenentatge interactiu

Diferència clau: La memòria LLM és essencialment estàtica (paràmetres fixos) o temporal (context limitat), mentre que la memòria d'agent és dinàmica, persistent i acoblada a l'entorn.

Memòria d'agent vs. Enginyeria de context

Tecnologies relacionades amb l'enginyeria de context:

  • Tool-integrated reasoning: ReTool, ToolLLM, Toolformer, VTool-R1, ToRL

  • Tool selection: AutoTool, VisTA

  • Communication protocol: ANP, A2A, MCP, Agora

AspecteEnginyeria de contextMemòria d'agent FocusOptimització de l'entrada per a una sola ronda o la tasca actualPersistència i utilització de la informació a través de múltiples rondes i tasques Dimensió temporalSessió actualHistòria a llarg termini Selecció d'informacióRegles dissenyades manualment o heurístiquesMecanismes automatitzats de formació, evolució i recuperació Gestió d'estatsSense estat persistentManté explícitament un estat de memòria evolucionable

Diferència clau: L'enginyeria de context és una tècnica d'optimització de prompts, mentre que la memòria d'agent és un sistema de gestió d'estats. El primer se centra en "Què introduir ara", el segon se centra en "Què s'ha recordat en el passat i com afecta el present i el futur".

Published in Technology

You Might Also Like