¡Sin ajuste de parámetros, solo código! Nuevo trabajo del equipo de Jeff Clune: Meta Agent evoluciona automáticamente módulos de memoria
¡Sin ajuste de parámetros, solo código! Nuevo trabajo del equipo de Jeff Clune: Meta Agent evoluciona automáticamente módulos de memoria
Camino hacia el Software 3.0, la IA comienza a escribir su propio código Python para evolucionar el cerebro.

En las profundidades del desarrollo de Agents, la memoria (Memory) siempre es un punto doloroso inevitable.
A pesar de que las capacidades de los modelos base son cada vez más potentes, en esencia no tienen estado (Stateless) durante el proceso de inferencia, lo que limita la capacidad del Agent para acumular experiencia de forma continua.
Actualmente, las principales soluciones de la industria para el manejo de la memoria, ya sea RAG o el resumen de ventanas deslizantes, siguen estando esencialmente en la etapa de reglas heurísticas diseñadas manualmente.
Este tipo de módulo de memoria hecho a mano es extremadamente frágil y difícil de migrar. El Prompt y la lógica de recuperación cuidadosamente ajustados para los sistemas de diálogo a menudo fallan directamente cuando se colocan en tareas de planificación a largo plazo (como ALFWorld) o juegos de estrategia complejos.

En respuesta a este dilema, el equipo de Jeff Clune, profesor de la UBC y ex investigador de OpenAI, ha presentado una solución geek.
Dado que no se sabe qué estructura de memoria es la mejor, dejemos que el Agent escriba su propio código Python para diseñarla.
Este es el recién lanzado ALMA (Automated meta-Learning of Memory designs for Agentic systems).
De ADAS a ALMA: Diseño automatizado basado en código
ALMA es una continuación de la ruta tecnológica de algoritmos generados por IA que este equipo ha estado promoviendo recientemente.

En ADAS (Automated Design of Agentic Systems), el equipo demostró que, al diseñar la arquitectura de un Agent, el código es un espacio de búsqueda más eficiente que los pesos de las redes neuronales o los Soft Prompts. El código tiene completitud de Turing y una gran interpretabilidad.

Posteriormente, en DGM (Darwin Gödel Machine), el equipo introdujo el concepto de exploración abierta de los algoritmos evolutivos, manteniendo un archivo de diseño para alentar al modelo a explorar nuevas soluciones.

ALMA hereda el paradigma de generación de código de ADAS y la estrategia evolutiva de DGM, enfocando el escenario de aplicación en el componente más dependiente de la experiencia humana en los sistemas Agent: la memoria.
El mecanismo de trabajo de ALMA
El mecanismo de funcionamiento de ALMA es un bucle de meta-aprendizaje estándar. El Meta Agent ya no procesa directamente las tareas, sino que es responsable de la programación. El proceso incluye cuatro etapas:
- Concepción: Analizar el archivo de diseño de memoria actual y concebir planes de mejora basados en el rendimiento histórico.
- Planificación: Convertir la concepción en lógica de pseudocódigo.
- Implementación: Escribir código Python ejecutable, definiendo funciones centrales.
- Evaluación: Implementar el código generado en un entorno sandbox para ejecutar tareas y retroalimentar los indicadores de rendimiento.

En el proceso de evolución, ALMA generará un enorme árbol de diseño. A medida que aumenta el número de pasos de iteración, el código de memoria generado evoluciona gradualmente desde una simple lógica de almacenamiento hasta una arquitectura cognitiva compleja.

Estructuras de memoria evolucionadas
Los diseños de memoria generados por ALMA mostraron una gran variabilidad en diferentes tareas:
- MiniHack (aventura en mazmorras): Diseñó el módulo Risk and Interaction, registrando explícitamente las operaciones que causan la pérdida de sangre y la agresividad de los monstruos.
- Baba Is AI (rompecabezas lógico): Diseñó la Strategy Library, registrando las combinaciones de reglas necesarias para pasar el nivel.

Esto indica que la IA puede identificar las características de la tarea: los juegos de supervivencia deben centrarse en el riesgo y los juegos de rompecabezas deben centrarse en la abstracción de reglas.
Resultados experimentales
Se comparó ALMA con las líneas de base principales en cuatro entornos: TextWorld, ALFWorld, MiniHack, Baba Is AI.
En el modelo GPT-5-mini, la tasa de éxito promedio de ALMA alcanzó el 53.9%, superando a G-Memory (46.0%) y Trajectory Retrieval (48.6%).

En términos de eficiencia de costos, ALMA consumió un promedio de solo 1,319 tokens, mientras que Trajectory Retrieval consumió hasta 9,149 tokens, y G-Memory también alcanzó los 6,055 tokens. ALMA intercambió un mejor rendimiento con solo alrededor de 1/7 a 1/5 del costo.

Conclusión
ALMA muestra una posibilidad de transición del Software 2.0 (Redes Neuronales) al Software 3.0 (Algoritmos de Generación de IA).
En el desarrollo de Agents, el diseño de módulos de memoria ha dependido durante mucho tiempo de la intuición de los ingenieros. ALMA demostró que, a través del meta-aprendizaje y la generación de código, la IA puede descubrir automáticamente la arquitectura de memoria óptima en función del entorno específico.
Enlaces de recursos
- Paper: https://arxiv.org/pdf/2602.07755
- Código: https://github.com/zksha/alma
- Página principal del proyecto: https://yimingxiong.me/alma





