Sense ajustar paràmetres, només escrivint codi! Nova obra de l'equip de Jeff Clune: Mòdul de memòria d'evolució automàtica Meta Agent

2/14/2026
4 min read

Sense ajustar paràmetres, només escrivint codi! Nova obra de l'equip de Jeff Clune: Mòdul de memòria d'evolució automàtica Meta Agent

Cap al Software 3.0, la IA comença a escriure el seu propi codi Python per evolucionar el cervell.

ALMA

En les profunditats del desenvolupament d'agents, la memòria (Memory) sempre és un punt feble inevitable.

Tot i que les capacitats dels models bàsics són cada vegada més potents, en essència no tenen estat (Stateless) durant el procés de raonament, cosa que limita la capacitat de l'agent d'acumular experiència de manera contínua.

Actualment, les solucions principals de la indústria per gestionar la memòria, ja sigui RAG o el resum de finestres lliscants, encara es troben essencialment en l'etapa de regles heurístiques dissenyades manualment.

Aquest mòdul de memòria fet a mà és extremadament fràgil i difícil de transferir. El Prompt i la lògica de recuperació acuradament ajustats per als sistemes de diàleg sovint fallen directament quan es col·loquen en tasques de planificació a llarg termini (com ALFWorld) o jocs d'estratègia complexos.

Arquitectura ALMA

Per abordar aquest problema, l'equip del professor de la UBC i antic investigador d'OpenAI, Jeff Clune, ha donat una solució d'estil geek.

Com que no se sap quina és la millor estructura de memòria, deixem que l'agent escrigui el seu propi codi Python per dissenyar-la.

Això és el que s'acaba de publicar ALMA (Automated meta-Learning of Memory designs for Agentic systems).

D'ADAS a ALMA: Disseny automatitzat basat en codi

ALMA és la continuació de la ruta tecnològica d'algorismes de generació d'IA que l'equip ha promogut recentment.

ADAS

En ADAS (Automated Design of Agentic Systems), l'equip va demostrar que, en dissenyar l'arquitectura de l'agent, el codi és un espai de cerca més eficient que els pesos de la xarxa neuronal o els Soft Prompts. El codi té la completesa de Turing i té una interpretabilitat extremadament forta.

Meta Agent

Posteriorment, a DGM (Darwin Gödel Machine), l'equip va introduir el concepte d'exploració oberta en l'algorisme evolutiu, mantenint un arxiu de disseny per animar el model a explorar solucions noves.

DGM

ALMA hereta el paradigma de generació de codi d'ADAS i l'estratègia evolutiva de DGM, centrant l'escenari d'aplicació en el component més dependent de l'experiència humana en el sistema d'agents: la memòria.

El mecanisme de treball d'ALMA

El mecanisme d'operació d'ALMA és un bucle tancat d'aprenentatge meta estàndard. El Meta Agent ja no gestiona directament les tasques, sinó que s'encarrega de la programació. El procés inclou quatre etapes:

  • Ideació: Analitzar l'arxiu de disseny de memòria actual i idear solucions de millora basades en el rendiment històric
  • Planificació: Traduir la ideació en lògica de pseudocodi
  • Implementació: Escriure codi Python executable, definint funcions bàsiques
  • Avaluació: Implementar el codi generat en un entorn sandbox per executar tasques i proporcionar indicadors de rendiment

Flux de treball

En el procés d'evolució, ALMA generarà un arbre de disseny enorme. A mesura que augmenta el nombre d'iteracions, el codi de memòria generat evoluciona gradualment des d'una lògica d'emmagatzematge senzilla fins a una arquitectura cognitiva complexa.

Arbre d'evolució

Estructura de memòria evolucionada

El disseny de memòria generat per ALMA mostra una gran varietat en diferents tasques:

  • MiniHack (Aventura de masmorra): Va dissenyar el mòdul Risk and Interaction, que registra explícitament les operacions que causen pèrdues de sang i l'agressivitat dels monstres
  • Baba Is AI (Trencaclosques lògic): Va dissenyar la Strategy Library, que registra les combinacions de regles necessàries per superar els nivells

Estructura de memòria

Això indica que la IA pot identificar les característiques de la tasca: els jocs de supervivència han de prestar atenció al risc i els jocs de trencaclosques han de prestar atenció a l'abstracció de regles.

Resultats experimentals

ALMA es va comparar amb les línies de base principals en quatre entorns: TextWorld, ALFWorld, MiniHack, Baba Is AI.

En el model GPT-5-mini, la taxa d'èxit mitjana d'ALMA va arribar al 53,9%, que és millor que G-Memory (46,0%) i Trajectory Retrieval (48,6%).

Resultats experimentals

Pel que fa a l'eficiència de costos, ALMA només consumeix una mitjana de 1.319 tokens, mentre que Trajectory Retrieval consumeix fins a 9.149 tokens i G-Memory també arriba als 6.055 tokens. ALMA va obtenir un millor rendiment amb només aproximadament 1/7 a 1/5 de la despesa.

Eficiència de costos

Conclusió

ALMA mostra una possibilitat de transició del Software 2.0 (Xarxes neuronals) al Software 3.0 (Algorismes de generació d'IA).

En el desenvolupament d'agents, el disseny del mòdul de memòria ha depès durant molt de temps de la intuïció dels enginyers. ALMA ha demostrat que, mitjançant l'aprenentatge meta i la generació de codi, la IA pot descobrir automàticament l'arquitectura de memòria òptima segons l'entorn específic.

Enllaços de recursos

Published in Technology

You Might Also Like