¡Sin ajuste de parámetros, solo código! Nuevo trabajo del equipo de Jeff Clune: Módulo de memoria de evolución automática de Meta Agent
¡Sin ajuste de parámetros, solo código! Nuevo trabajo del equipo de Jeff Clune: Módulo de memoria de evolución automática de Meta Agent
Camino hacia Software 3.0, la IA comienza a escribir su propio código Python para evolucionar el cerebro.

En las profundidades del desarrollo de Agent, la memoria (Memory) siempre es un punto doloroso que no se puede evitar.
A pesar de que las capacidades del modelo base son cada vez más potentes, en esencia no tienen estado (Stateless) durante el proceso de inferencia, lo que limita la capacidad del Agent para acumular experiencia de forma continua.
Actualmente, las soluciones principales de la industria para el manejo de la memoria, ya sea RAG o el resumen de ventanas deslizantes, esencialmente permanecen en la etapa de reglas heurísticas diseñadas manualmente.
Este tipo de módulo de memoria hecho a mano es extremadamente frágil y difícil de migrar. El Prompt y la lógica de recuperación cuidadosamente ajustados para los sistemas de diálogo a menudo fallan directamente cuando se colocan en tareas de planificación a largo plazo (como ALFWorld) o juegos de estrategia complejos.

Ante este dilema, el equipo de Jeff Clune, profesor de la UBC y ex investigador de OpenAI, ha dado una solución geek.
Dado que no se sabe qué estructura de memoria es la mejor, dejemos que el Agent escriba su propio código Python para diseñarla.
Este es el recién lanzado ALMA (Automated meta-Learning of Memory designs for Agentic systems).
De ADAS a ALMA: Diseño automatizado basado en código
ALMA es una continuación de la ruta tecnológica del algoritmo de generación de IA que el equipo ha promovido recientemente.

En ADAS (Automated Design of Agentic Systems), el equipo demostró que al diseñar la arquitectura de Agent, el código es un espacio de búsqueda más eficiente que los pesos de la red neuronal o los Soft Prompts. El código tiene completitud de Turing y tiene una gran interpretabilidad.

Posteriormente, en DGM (Darwin Gödel Machine), el equipo introdujo el concepto de exploración abierta en el algoritmo evolutivo, manteniendo un archivo de diseño para alentar al modelo a explorar nuevas soluciones.

ALMA hereda el paradigma de generación de código de ADAS y la estrategia evolutiva de DGM, enfocando el escenario de aplicación en el componente más dependiente de la experiencia humana en el sistema Agent: la memoria.
El mecanismo de trabajo de ALMA
El mecanismo de operación de ALMA es un ciclo cerrado de meta-aprendizaje estándar. Meta Agent ya no maneja directamente las tareas, sino que es responsable de la programación. El proceso incluye cuatro etapas:
- Ideación: Analizar el archivo de diseño de memoria actual, basado en el rendimiento histórico para idear planes de mejora
- Planificación: Convertir la ideación en lógica de pseudocódigo
- Implementación: Escribir código Python ejecutable, definir funciones centrales
- Evaluación: Implementar el código generado en un entorno sandbox para ejecutar tareas y retroalimentar los indicadores de rendimiento

En el proceso de evolución, ALMA generará un enorme árbol de diseño. A medida que aumenta el número de pasos de iteración, el código de memoria generado evoluciona gradualmente desde una simple lógica de almacenamiento hasta una arquitectura cognitiva compleja.

Estructura de memoria evolucionada
El diseño de memoria generado por ALMA mostró una gran variabilidad en diferentes tareas:
- MiniHack (aventura en mazmorras): Diseñó el módulo Risk and Interaction, registrando explícitamente las operaciones que conducen a la pérdida de sangre y la agresividad de los monstruos
- Baba Is AI (rompecabezas lógico): Diseñó la Strategy Library, registrando las combinaciones de reglas necesarias para pasar los niveles

Esto indica que la IA puede identificar las características de la tarea: los juegos de supervivencia deben prestar atención al riesgo y los juegos de rompecabezas deben prestar atención a la abstracción de reglas.
Resultados experimentales
Se comparó ALMA con las líneas de base principales en cuatro entornos: TextWorld, ALFWorld, MiniHack, Baba Is AI.
En el modelo GPT-5-mini, la tasa de éxito promedio de ALMA alcanzó el 53.9%, que es mejor que G-Memory (46.0%) y Trajectory Retrieval (48.6%).

En términos de eficiencia de costos, ALMA consume en promedio solo 1,319 tokens, mientras que Trajectory Retrieval consume hasta 9,149 tokens, y G-Memory también alcanza los 6,055 tokens. ALMA intercambió un mejor rendimiento con solo alrededor de 1/7 a 1/5 del costo.

Conclusión
ALMA muestra una posibilidad de transición de Software 2.0 (Redes Neuronales) a Software 3.0 (Algoritmos de Generación de IA).
En el desarrollo de Agent, el diseño del módulo de memoria ha dependido durante mucho tiempo de la intuición de los ingenieros. ALMA demostró que, a través del meta-aprendizaje y la generación de código, la IA puede descubrir automáticamente la arquitectura de memoria óptima de acuerdo con el entorno específico.
Enlaces de recursos
- Paper: https://arxiv.org/pdf/2602.07755
- Código: https://github.com/zksha/alma
- Página principal del proyecto: https://yimingxiong.me/alma





