파라미터 튜닝 없이 코드만 작성! Jeff Clune 팀의 신작: Meta Agent 자동 진화 기억 모듈

Software 3.0으로 가는 길, AI가 스스로 Python 코드를 작성하여 두뇌를 진화시키기 시작했습니다.

ALMA

Agent 개발의 심층 영역에서 기억(Memory)은 항상 피할 수 없는 문제점입니다.

기초 모델의 능력이 날로 강력해지고 있지만, 추론 과정에서 본질적으로 상태가 없기(Stateless) 때문에 Agent가 지속적으로 경험을 축적하는 능력이 제한됩니다.

현재 업계에서 기억을 처리하는 주류 방식은 RAG든 슬라이딩 윈도우 요약이든, 본질적으로 여전히 사람이 설계한 휴리스틱 규칙 단계에 머물러 있습니다.

이러한 수동으로 만들어낸 기억 모듈은 극도로 취약하고 이식하기 어려우며, 대화 시스템을 위해 세심하게 튜닝된 Prompt와 검색 로직은 장거리 계획 작업(예: ALFWorld)이나 복잡한 전략 게임에 적용되면 종종 바로 실패합니다.

ALMA 아키텍처

이러한 어려움에 대해 UBC 교수이자 OpenAI 전 연구원인 Jeff Clune 팀은 괴짜스러운 해결책을 제시했습니다.

어떤 기억 구조가 가장 좋은지 모른다면 Agent가 직접 Python 코드를 작성하여 설계하도록 하는 것입니다.

이것이 바로 막 발표된 ALMA(Automated meta-Learning of Memory designs for Agentic systems)입니다.

ADAS에서 ALMA로: 코드 기반 자동화 설계

ALMA는 해당 팀이 최근에 추진하는 AI 생성 알고리즘 기술 로드맵의 연장선입니다.

ADAS

ADAS(Automated Design of Agentic Systems)에서 팀은 Agent 아키텍처를 설계할 때 코드가 신경망 가중치 또는 Soft Prompts보다 더 효율적인 검색 공간임을 입증했습니다. 코드는 튜링 완전성을 가지며 매우 강력한 설명력을 갖습니다.

Meta Agent

이후 DGM(Darwin Gödel Machine)에서 팀은 진화 알고리즘의 개방형 탐색 개념을 도입하여 설계 아카이브를 유지하고 모델이 새로운 해결책을 탐색하도록 장려했습니다.

DGM

ALMA는 ADAS의 코드 생성 패러다임과 DGM의 진화 전략을 계승하여 Agent 시스템에서 가장 인공 경험에 의존하는 구성 요소인 기억에 응용 시나리오를 집중했습니다.

ALMA의 작동 메커니즘

ALMA의 실행 메커니즘은 표준 메타 학습 폐쇄 루프입니다. Meta Agent는 더 이상 직접 작업을 처리하지 않고 프로그래밍을 담당합니다. 프로세스는 네 단계로 구성됩니다.

구상: 현재 기억 설계 아카이브를 분석하고 과거 성능을 기반으로 개선 방안을 구상합니다.
계획: 구상을 의사 코드 로직으로 변환합니다.
구현: 실행 가능한 Python 코드를 작성하여 핵심 함수를 정의합니다.
평가: 생성된 코드를 샌드박스 환경에 배포하여 작업을 실행하고 성능 지표를 피드백합니다.

작업 흐름

진화 과정에서 ALMA는 거대한 설계 트리를 생성합니다. 반복 횟수가 증가함에 따라 생성된 기억 코드는 점차 단순한 저장 로직에서 복잡한 인지 아키텍처로 진화합니다.

진화 트리

진화된 기억 구조

ALMA가 생성한 기억 설계는 다양한 작업에서 매우 큰 차이를 보였습니다.

MiniHack(던전 탐험): Risk and Interaction 모듈을 설계하여 체력이 깎이는 원인이 되는 조작과 몬스터의 공격성을 명시적으로 기록합니다.
Baba Is AI(논리 퍼즐): Strategy Library를 설계하여 레벨을 통과하는 데 필요한 규칙 조합을 기록합니다.

기억 구조

이는 AI가 작업 특성을 식별할 수 있음을 나타냅니다. 생존 게임은 위험에 주의를 기울여야 하고, 퍼즐 게임은 규칙 추상화에 주의를 기울여야 합니다.

실험 결과

TextWorld, ALFWorld, MiniHack, Baba Is AI 네 가지 환경에서 ALMA와 주류 기준선을 비교했습니다.

GPT-5-mini 모델에서 ALMA의 평균 성공률은 **53.9%**에 도달하여 G-Memory(46.0%) 및 Trajectory Retrieval(48.6%)보다 우수했습니다.

실험 결과

비용 효율성 측면에서 ALMA는 평균 1,319 tokens만 소비하는 반면, Trajectory Retrieval은 무려 9,149 tokens를 소비하고 G-Memory도 6,055 tokens에 도달했습니다. ALMA는 약 1/7에서 1/5의 비용으로 더 나은 성능을 얻었습니다.

비용 효율성