Pas de réglage de paramètres, juste du code ! Nouvelle création de l'équipe de Jeff Clune : Meta Agent fait évoluer automatiquement les modules de mémoire
Pas de réglage de paramètres, juste du code ! Nouvelle création de l'équipe de Jeff Clune : Meta Agent fait évoluer automatiquement les modules de mémoire
En route vers Software 3.0, l'IA commence à écrire son propre code Python pour faire évoluer son cerveau.

Dans les profondeurs du développement d'Agent, la mémoire (Memory) est toujours un point sensible incontournable.
Bien que les capacités des modèles de base soient de plus en plus puissantes, ils sont essentiellement sans état (Stateless) dans le processus de raisonnement, ce qui limite la capacité de l'Agent à accumuler continuellement de l'expérience.
Actuellement, les solutions courantes de l'industrie pour traiter la mémoire, qu'il s'agisse de RAG ou de résumés de fenêtres glissantes, restent essentiellement au stade des règles heuristiques conçues manuellement.
Ces modules de mémoire fabriqués à la main sont extrêmement fragiles et difficiles à transférer. Les prompts et la logique de recherche soigneusement réglés pour les systèmes de dialogue échouent souvent directement lorsqu'ils sont placés dans des tâches de planification à long terme (telles que ALFWorld) ou des jeux de stratégie complexes.

Pour résoudre ce problème, l'équipe de Jeff Clune, professeur à UBC et ancien chercheur chez OpenAI, a proposé une solution de type geek.
Puisqu'on ne sait pas quelle est la meilleure structure de mémoire, laissons l'Agent écrire lui-même du code Python pour la concevoir.
C'est ce qui vient d'être publié : ALMA (Automated meta-Learning of Memory designs for Agentic systems).
De ADAS à ALMA : Conception automatisée basée sur le code
ALMA est la continuation de la ligne de conduite technologique des algorithmes de génération d'IA récemment promue par l'équipe.

Dans ADAS (Automated Design of Agentic Systems), l'équipe a prouvé que lors de la conception de l'architecture d'un Agent, le code est un espace de recherche plus efficace que les poids des réseaux neuronaux ou les Soft Prompts. Le code est Turing complet et possède une très forte interprétabilité.

Par la suite, dans DGM (Darwin Gödel Machine), l'équipe a introduit le concept d'exploration ouverte dans les algorithmes d'évolution, en maintenant un dépôt d'archives de conception pour encourager le modèle à explorer de nouvelles solutions.

ALMA hérite du paradigme de génération de code d'ADAS et de la stratégie d'évolution de DGM, en concentrant les scénarios d'application sur le composant le plus dépendant de l'expérience humaine dans les systèmes d'Agent : la mémoire.
Le mécanisme de fonctionnement d'ALMA
Le mécanisme de fonctionnement d'ALMA est une boucle fermée de méta-apprentissage standard. Le Meta Agent ne traite plus directement les tâches, mais est responsable de la programmation. Le processus comprend quatre étapes :
- Conception : Analyser les archives de conception de mémoire actuelles, et concevoir des solutions d'amélioration basées sur les performances historiques
- Planification : Transformer la conception en logique de pseudo-code
- Réalisation : Écrire du code Python exécutable, définir les fonctions principales
- Évaluation : Déployer le code généré dans un environnement sandbox pour exécuter des tâches et renvoyer des indicateurs de performance

Dans le processus d'évolution, ALMA générera un arbre de conception énorme. Au fur et à mesure que le nombre d'itérations augmente, le code de mémoire généré évolue progressivement d'une simple logique de stockage à une architecture cognitive complexe.

Structures de mémoire évoluées
Les conceptions de mémoire générées par ALMA ont montré une grande diversité dans différentes tâches :
- MiniHack (exploration de donjons) : Conception d'un module Risk and Interaction, enregistrant explicitement les opérations qui entraînent une perte de sang et l'agressivité des monstres
- Baba Is AI (puzzle logique) : Conception d'une Strategy Library, enregistrant les combinaisons de règles nécessaires pour passer les niveaux

Cela montre que l'IA est capable d'identifier les caractéristiques des tâches : les jeux de survie doivent se concentrer sur les risques, et les jeux de puzzle doivent se concentrer sur l'abstraction des règles.
Résultats expérimentaux
ALMA a été comparé aux principales bases de référence dans quatre environnements : TextWorld, ALFWorld, MiniHack et Baba Is AI.
Sur le modèle GPT-5-mini, le taux de réussite moyen d'ALMA a atteint 53,9 %, ce qui est supérieur à G-Memory (46,0 %) et Trajectory Retrieval (48,6 %).

En termes d'efficacité des coûts, ALMA ne consomme en moyenne que 1 319 tokens, tandis que Trajectory Retrieval en consomme jusqu'à 9 149 et G-Memory atteint également 6 055 tokens. ALMA a obtenu de meilleures performances avec seulement environ 1/7 à 1/5 des coûts.

Conclusion
ALMA montre une possibilité de transition de Software 2.0 (Neural Networks) à Software 3.0 (AI-Generating Algorithms).
Dans le développement d'Agent, la conception des modules de mémoire repose depuis longtemps sur l'intuition des ingénieurs. ALMA a prouvé que, grâce au méta-apprentissage et à la génération de code, l'IA est capable de découvrir automatiquement l'architecture de mémoire optimale en fonction de l'environnement spécifique.
Liens de ressources
- Article : https://arxiv.org/pdf/2602.07755
- Code : https://github.com/zksha/alma
- Page d'accueil du projet : https://yimingxiong.me/alma





