Sem ajuste fino, apenas código! Novo trabalho da equipe de Jeff Clune: Meta Agent evolui automaticamente módulos de memória

2/14/2026
4 min read

Sem ajuste fino, apenas código! Novo trabalho da equipe de Jeff Clune: Meta Agent evolui automaticamente módulos de memória

Indo em direção ao Software 3.0, a IA começa a escrever seu próprio código Python para evoluir o cérebro.

ALMA

Na área complexa do desenvolvimento de Agent, a memória (Memory) sempre foi um ponto problemático inevitável.

Embora as capacidades dos modelos básicos estejam se tornando cada vez mais poderosas, eles são essencialmente sem estado (Stateless) no processo de raciocínio, o que limita a capacidade do Agent de acumular experiência continuamente.

Atualmente, as principais soluções da indústria para lidar com a memória, seja RAG ou resumo de janela deslizante, ainda permanecem no estágio de regras heurísticas projetadas manualmente.

Este módulo de memória criado manualmente é extremamente frágil e difícil de transferir. O Prompt e a lógica de recuperação cuidadosamente ajustados para sistemas de diálogo geralmente falham diretamente quando colocados em tarefas de planejamento de longo prazo (como ALFWorld) ou jogos de estratégia complexos.

ALMA架构

Para resolver este problema, a equipe de Jeff Clune, professor da UBC e ex-pesquisador da OpenAI, apresentou uma solução geek.

Já que não sabemos qual estrutura de memória é a melhor, vamos deixar o Agent escrever seu próprio código Python para projetá-la.

Este é o recém-lançado ALMA (Automated meta-Learning of Memory designs for Agentic systems).

De ADAS a ALMA: Design automatizado baseado em código

ALMA é uma continuação da rota técnica de algoritmos de geração de IA promovida pela equipe recentemente.

ADAS

Em ADAS (Automated Design of Agentic Systems), a equipe provou que, ao projetar a arquitetura do Agent, o código é um espaço de busca mais eficiente do que os pesos da rede neural ou Soft Prompts. O código tem completude de Turing e possui forte interpretabilidade.

Meta Agent

Posteriormente, em DGM (Darwin Gödel Machine), a equipe introduziu o conceito de exploração aberta em algoritmos evolutivos, mantendo um arquivo de design para incentivar o modelo a explorar novas soluções.

DGM

ALMA herda o paradigma de geração de código do ADAS e a estratégia evolutiva do DGM, focando o cenário de aplicação no componente mais dependente da experiência humana nos sistemas Agent - a memória.

Mecanismo de trabalho do ALMA

O mecanismo de operação do ALMA é um loop fechado de meta-aprendizagem padrão. O Meta Agent não lida mais diretamente com as tarefas, mas é responsável pela programação. O processo inclui quatro etapas:

  • Idealização: Analisar o arquivo de design de memória atual e idealizar soluções de melhoria com base no desempenho histórico
  • Planejamento: Converter a idealização em lógica de pseudocódigo
  • Implementação: Escrever código Python executável, definindo funções principais
  • Avaliação: Implantar o código gerado em um ambiente sandbox para executar tarefas e fornecer métricas de desempenho

工作流程

No processo de evolução, o ALMA gerará uma enorme árvore de design. À medida que o número de iterações aumenta, o código de memória gerado evolui gradualmente de uma lógica de armazenamento simples para uma arquitetura cognitiva complexa.

进化树

Estrutura de memória evoluída

O design de memória gerado pelo ALMA mostrou grande variabilidade em diferentes tarefas:

  • MiniHack (exploração de masmorras): Projetou o módulo Risk and Interaction, registrando explicitamente as operações que causam perda de sangue e a agressividade dos monstros
  • Baba Is AI (quebra-cabeça lógico): Projetou a Strategy Library, registrando as combinações de regras necessárias para passar de nível

记忆结构

Isso mostra que a IA pode identificar as características da tarefa: jogos de sobrevivência precisam se concentrar no risco, jogos de quebra-cabeça precisam se concentrar na abstração de regras.

Resultados experimentais

ALMA foi comparado com as principais linhas de base em quatro ambientes: TextWorld, ALFWorld, MiniHack, Baba Is AI.

No modelo GPT-5-mini, a taxa de sucesso média do ALMA atingiu 53,9%, o que é melhor do que G-Memory (46,0%) e Trajectory Retrieval (48,6%).

实验结果

Em termos de custo-eficiência, o ALMA consome em média apenas 1.319 tokens, enquanto o Trajectory Retrieval consome até 9.149 tokens, e o G-Memory também atinge 6.055 tokens. ALMA troca melhor desempenho por apenas cerca de 1/7 a 1/5 do custo.

成本效率

Conclusão

ALMA demonstra uma possibilidade de transição do Software 2.0 (Redes Neurais) para o Software 3.0 (Algoritmos de Geração de IA).

No desenvolvimento de Agent, o design do módulo de memória tem dependido da intuição dos engenheiros por muito tempo. ALMA provou que, por meio de meta-aprendizagem e geração de código, a IA pode descobrir automaticamente a arquitetura de memória ideal de acordo com o ambiente específico.

Links de recursos

Published in Technology

You Might Also Like