Sense ajustar paràmetres, només escrivint codi! Nova obra de l'equip de Jeff Clune: Mòdul de memòria d'evolució automàtica Meta Agent
Sense ajustar paràmetres, només escrivint codi! Nova obra de l'equip de Jeff Clune: Mòdul de memòria d'evolució automàtica Meta Agent
Cap al Software 3.0, la IA comença a escriure el seu propi codi Python per evolucionar el cervell.

En les profunditats del desenvolupament d'agents, la memòria (Memory) sempre és un punt feble inevitable.
Tot i que les capacitats dels models bàsics són cada vegada més potents, en essència no tenen estat (Stateless) durant el procés de raonament, cosa que limita la capacitat de l'agent d'acumular experiència de manera contínua.
Actualment, les solucions principals de la indústria per gestionar la memòria, ja sigui RAG o el resum de finestres lliscants, encara es troben essencialment en l'etapa de regles heurístiques dissenyades manualment.
Aquest mòdul de memòria fet a mà és extremadament fràgil i difícil de transferir. El Prompt i la lògica de recuperació acuradament ajustats per als sistemes de diàleg sovint fallen directament quan es col·loquen en tasques de planificació a llarg termini (com ALFWorld) o jocs d'estratègia complexos.

Per abordar aquest problema, l'equip del professor de la UBC i antic investigador d'OpenAI, Jeff Clune, ha donat una solució d'estil geek.
Com que no se sap quina és la millor estructura de memòria, deixem que l'agent escrigui el seu propi codi Python per dissenyar-la.
Això és el que s'acaba de publicar ALMA (Automated meta-Learning of Memory designs for Agentic systems).
D'ADAS a ALMA: Disseny automatitzat basat en codi
ALMA és la continuació de la ruta tecnològica d'algorismes de generació d'IA que l'equip ha promogut recentment.

En ADAS (Automated Design of Agentic Systems), l'equip va demostrar que, en dissenyar l'arquitectura de l'agent, el codi és un espai de cerca més eficient que els pesos de la xarxa neuronal o els Soft Prompts. El codi té la completesa de Turing i té una interpretabilitat extremadament forta.

Posteriorment, a DGM (Darwin Gödel Machine), l'equip va introduir el concepte d'exploració oberta en l'algorisme evolutiu, mantenint un arxiu de disseny per animar el model a explorar solucions noves.

ALMA hereta el paradigma de generació de codi d'ADAS i l'estratègia evolutiva de DGM, centrant l'escenari d'aplicació en el component més dependent de l'experiència humana en el sistema d'agents: la memòria.
El mecanisme de treball d'ALMA
El mecanisme d'operació d'ALMA és un bucle tancat d'aprenentatge meta estàndard. El Meta Agent ja no gestiona directament les tasques, sinó que s'encarrega de la programació. El procés inclou quatre etapes:
- Ideació: Analitzar l'arxiu de disseny de memòria actual i idear solucions de millora basades en el rendiment històric
- Planificació: Traduir la ideació en lògica de pseudocodi
- Implementació: Escriure codi Python executable, definint funcions bàsiques
- Avaluació: Implementar el codi generat en un entorn sandbox per executar tasques i proporcionar indicadors de rendiment

En el procés d'evolució, ALMA generarà un arbre de disseny enorme. A mesura que augmenta el nombre d'iteracions, el codi de memòria generat evoluciona gradualment des d'una lògica d'emmagatzematge senzilla fins a una arquitectura cognitiva complexa.

Estructura de memòria evolucionada
El disseny de memòria generat per ALMA mostra una gran varietat en diferents tasques:
- MiniHack (Aventura de masmorra): Va dissenyar el mòdul Risk and Interaction, que registra explícitament les operacions que causen pèrdues de sang i l'agressivitat dels monstres
- Baba Is AI (Trencaclosques lògic): Va dissenyar la Strategy Library, que registra les combinacions de regles necessàries per superar els nivells

Això indica que la IA pot identificar les característiques de la tasca: els jocs de supervivència han de prestar atenció al risc i els jocs de trencaclosques han de prestar atenció a l'abstracció de regles.
Resultats experimentals
ALMA es va comparar amb les línies de base principals en quatre entorns: TextWorld, ALFWorld, MiniHack, Baba Is AI.
En el model GPT-5-mini, la taxa d'èxit mitjana d'ALMA va arribar al 53,9%, que és millor que G-Memory (46,0%) i Trajectory Retrieval (48,6%).

Pel que fa a l'eficiència de costos, ALMA només consumeix una mitjana de 1.319 tokens, mentre que Trajectory Retrieval consumeix fins a 9.149 tokens i G-Memory també arriba als 6.055 tokens. ALMA va obtenir un millor rendiment amb només aproximadament 1/7 a 1/5 de la despesa.

Conclusió
ALMA mostra una possibilitat de transició del Software 2.0 (Xarxes neuronals) al Software 3.0 (Algorismes de generació d'IA).
En el desenvolupament d'agents, el disseny del mòdul de memòria ha depès durant molt de temps de la intuïció dels enginyers. ALMA ha demostrat que, mitjançant l'aprenentatge meta i la generació de codi, la IA pot descobrir automàticament l'arquitectura de memòria òptima segons l'entorn específic.
Enllaços de recursos
- Document: https://arxiv.org/pdf/2602.07755
- Codi: https://github.com/zksha/alma
- Pàgina principal del projecte: https://yimingxiong.me/alma





