Sem ajuste fino, apenas código! Novo trabalho da equipe de Jeff Clune: Meta Agent evolui automaticamente módulos de memória
Sem ajuste fino, apenas código! Novo trabalho da equipe de Jeff Clune: Meta Agent evolui automaticamente módulos de memória
Indo em direção ao Software 3.0, a IA começa a escrever seu próprio código Python para evoluir o cérebro.

Na área complexa do desenvolvimento de Agent, a memória (Memory) sempre foi um ponto problemático inevitável.
Embora as capacidades dos modelos básicos estejam se tornando cada vez mais poderosas, eles são essencialmente sem estado (Stateless) no processo de raciocínio, o que limita a capacidade do Agent de acumular experiência continuamente.
Atualmente, as principais soluções da indústria para lidar com a memória, seja RAG ou resumo de janela deslizante, ainda permanecem no estágio de regras heurísticas projetadas manualmente.
Este módulo de memória criado manualmente é extremamente frágil e difícil de transferir. O Prompt e a lógica de recuperação cuidadosamente ajustados para sistemas de diálogo geralmente falham diretamente quando colocados em tarefas de planejamento de longo prazo (como ALFWorld) ou jogos de estratégia complexos.

Para resolver este problema, a equipe de Jeff Clune, professor da UBC e ex-pesquisador da OpenAI, apresentou uma solução geek.
Já que não sabemos qual estrutura de memória é a melhor, vamos deixar o Agent escrever seu próprio código Python para projetá-la.
Este é o recém-lançado ALMA (Automated meta-Learning of Memory designs for Agentic systems).
De ADAS a ALMA: Design automatizado baseado em código
ALMA é uma continuação da rota técnica de algoritmos de geração de IA promovida pela equipe recentemente.

Em ADAS (Automated Design of Agentic Systems), a equipe provou que, ao projetar a arquitetura do Agent, o código é um espaço de busca mais eficiente do que os pesos da rede neural ou Soft Prompts. O código tem completude de Turing e possui forte interpretabilidade.

Posteriormente, em DGM (Darwin Gödel Machine), a equipe introduziu o conceito de exploração aberta em algoritmos evolutivos, mantendo um arquivo de design para incentivar o modelo a explorar novas soluções.

ALMA herda o paradigma de geração de código do ADAS e a estratégia evolutiva do DGM, focando o cenário de aplicação no componente mais dependente da experiência humana nos sistemas Agent - a memória.
Mecanismo de trabalho do ALMA
O mecanismo de operação do ALMA é um loop fechado de meta-aprendizagem padrão. O Meta Agent não lida mais diretamente com as tarefas, mas é responsável pela programação. O processo inclui quatro etapas:
- Idealização: Analisar o arquivo de design de memória atual e idealizar soluções de melhoria com base no desempenho histórico
- Planejamento: Converter a idealização em lógica de pseudocódigo
- Implementação: Escrever código Python executável, definindo funções principais
- Avaliação: Implantar o código gerado em um ambiente sandbox para executar tarefas e fornecer métricas de desempenho

No processo de evolução, o ALMA gerará uma enorme árvore de design. À medida que o número de iterações aumenta, o código de memória gerado evolui gradualmente de uma lógica de armazenamento simples para uma arquitetura cognitiva complexa.

Estrutura de memória evoluída
O design de memória gerado pelo ALMA mostrou grande variabilidade em diferentes tarefas:
- MiniHack (exploração de masmorras): Projetou o módulo Risk and Interaction, registrando explicitamente as operações que causam perda de sangue e a agressividade dos monstros
- Baba Is AI (quebra-cabeça lógico): Projetou a Strategy Library, registrando as combinações de regras necessárias para passar de nível

Isso mostra que a IA pode identificar as características da tarefa: jogos de sobrevivência precisam se concentrar no risco, jogos de quebra-cabeça precisam se concentrar na abstração de regras.
Resultados experimentais
ALMA foi comparado com as principais linhas de base em quatro ambientes: TextWorld, ALFWorld, MiniHack, Baba Is AI.
No modelo GPT-5-mini, a taxa de sucesso média do ALMA atingiu 53,9%, o que é melhor do que G-Memory (46,0%) e Trajectory Retrieval (48,6%).

Em termos de custo-eficiência, o ALMA consome em média apenas 1.319 tokens, enquanto o Trajectory Retrieval consome até 9.149 tokens, e o G-Memory também atinge 6.055 tokens. ALMA troca melhor desempenho por apenas cerca de 1/7 a 1/5 do custo.

Conclusão
ALMA demonstra uma possibilidade de transição do Software 2.0 (Redes Neurais) para o Software 3.0 (Algoritmos de Geração de IA).
No desenvolvimento de Agent, o design do módulo de memória tem dependido da intuição dos engenheiros por muito tempo. ALMA provou que, por meio de meta-aprendizagem e geração de código, a IA pode descobrir automaticamente a arquitetura de memória ideal de acordo com o ambiente específico.
Links de recursos
- Artigo: https://arxiv.org/pdf/2602.07755
- Código: https://github.com/zksha/alma
- Página inicial do projeto: https://yimingxiong.me/alma





