Không cần điều chỉnh tham số, chỉ cần viết code! Tác phẩm mới của nhóm Jeff Clune: Meta Agent tự động tiến hóa module bộ nhớ
Không cần điều chỉnh tham số, chỉ cần viết code! Tác phẩm mới của nhóm Jeff Clune: Meta Agent tự động tiến hóa module bộ nhớ
Trên con đường dẫn đến Software 3.0, AI bắt đầu tự viết code Python để tiến hóa bộ não.

Trong vùng nước sâu của phát triển Agent, bộ nhớ (Memory) luôn là một điểm đau không thể tránh khỏi.
Mặc dù khả năng của các mô hình cơ bản ngày càng mạnh mẽ, nhưng về bản chất chúng là vô trạng thái (Stateless) trong quá trình suy luận, điều này hạn chế khả năng tích lũy kinh nghiệm liên tục của Agent.
Các giải pháp chính thống hiện tại trong ngành để xử lý bộ nhớ, dù là RAG hay tóm tắt cửa sổ trượt, về bản chất vẫn dừng lại ở giai đoạn quy tắc heuristic được thiết kế thủ công.
Module bộ nhớ được tạo ra thủ công này cực kỳ dễ vỡ và khó di chuyển. Prompt và logic truy xuất được điều chỉnh cẩn thận cho hệ thống đối thoại thường sẽ mất tác dụng khi được đưa vào các tác vụ lập kế hoạch dài hạn (như ALFWorld) hoặc các trò chơi chiến lược phức tạp.

Để giải quyết khó khăn này, nhóm của giáo sư UBC, cựu nhà nghiên cứu OpenAI Jeff Clune đã đưa ra một giải pháp kiểu geek.
Vì không biết cấu trúc bộ nhớ nào là tốt nhất, hãy để Agent tự viết code Python để thiết kế.
Đây chính là ALMA (Automated meta-Learning of Memory designs for Agentic systems) vừa được phát hành.
Từ ADAS đến ALMA: Thiết kế tự động dựa trên code
ALMA là sự tiếp nối của lộ trình công nghệ thuật toán tạo AI mà nhóm này đã thúc đẩy gần đây.

Trong ADAS (Automated Design of Agentic Systems), nhóm đã chứng minh rằng code là một không gian tìm kiếm hiệu quả hơn so với trọng số mạng nơ-ron hoặc Soft Prompts khi thiết kế kiến trúc Agent. Code có tính đầy đủ Turing và có khả năng giải thích cực kỳ mạnh mẽ.

Sau đó, trong DGM (Darwin Gödel Machine), nhóm đã giới thiệu khái niệm khám phá mở trong thuật toán tiến hóa, duy trì một kho lưu trữ thiết kế, khuyến khích mô hình khám phá các giải pháp mới lạ.

ALMA kế thừa mô hình tạo code của ADAS và chiến lược tiến hóa của DGM, tập trung ứng dụng vào thành phần phụ thuộc nhiều nhất vào kinh nghiệm thủ công trong hệ thống Agent - bộ nhớ.
Cơ chế hoạt động của ALMA
Cơ chế hoạt động của ALMA là một vòng lặp meta-learning tiêu chuẩn. Meta Agent không còn trực tiếp xử lý tác vụ mà chịu trách nhiệm lập trình. Quy trình bao gồm bốn giai đoạn:
- Hình thành ý tưởng: Phân tích kho lưu trữ thiết kế bộ nhớ hiện tại, hình thành các phương án cải tiến dựa trên hiệu suất lịch sử
- Lập kế hoạch: Chuyển đổi ý tưởng thành logic mã giả
- Triển khai: Viết code Python có thể thực thi, xác định các hàm cốt lõi
- Đánh giá: Triển khai code đã tạo vào môi trường sandbox để thực hiện tác vụ, phản hồi các chỉ số hiệu suất

Trong quá trình tiến hóa, ALMA sẽ tạo ra một cây thiết kế khổng lồ. Khi số bước lặp tăng lên, code bộ nhớ được tạo ra dần dần tiến hóa từ logic lưu trữ đơn giản thành kiến trúc nhận thức phức tạp.

Cấu trúc bộ nhớ được tiến hóa
Thiết kế bộ nhớ do ALMA tạo ra thể hiện sự khác biệt lớn trong các tác vụ khác nhau:
- MiniHack (khám phá ngục tối): Thiết kế module Risk and Interaction, ghi lại một cách rõ ràng các thao tác gây mất máu và tính hung hăng của quái vật
- Baba Is AI (giải đố logic): Thiết kế Strategy Library, ghi lại các tổ hợp quy tắc cần thiết để vượt qua màn chơi

Điều này cho thấy AI có thể nhận biết các đặc điểm của tác vụ: trò chơi sinh tồn cần chú ý đến rủi ro, trò chơi giải đố cần chú ý đến trừu tượng hóa quy tắc.
Kết quả thử nghiệm
So sánh ALMA với các baseline chính thống trong bốn môi trường TextWorld, ALFWorld, MiniHack, Baba Is AI.
Trên mô hình GPT-5-mini, tỷ lệ thành công trung bình của ALMA đạt 53.9%, tốt hơn G-Memory (46.0%) và Trajectory Retrieval (48.6%).

Về hiệu quả chi phí, ALMA trung bình chỉ tiêu thụ 1,319 tokens, trong khi Trajectory Retrieval tiêu thụ tới 9,149 tokens, G-Memory cũng đạt 6,055 tokens. ALMA đã đổi lấy hiệu suất tốt hơn với chi phí chỉ bằng khoảng 1/7 đến 1/5.

Kết luận
ALMA thể hiện một khả năng chuyển đổi từ Software 2.0 (Neural Networks) sang Software 3.0 (AI-Generating Algorithms).
Trong phát triển Agent, thiết kế module bộ nhớ từ lâu đã phụ thuộc vào trực giác của kỹ sư. ALMA đã chứng minh rằng, thông qua meta-learning và tạo code, AI có thể tự động khám phá kiến trúc bộ nhớ tối ưu theo môi trường cụ thể.
Liên kết tài nguyên
- Bài báo: https://arxiv.org/pdf/2602.07755
- Code: https://github.com/zksha/alma
- Trang chủ dự án: https://yimingxiong.me/alma





