ไม่ต้องปรับแต่งพารามิเตอร์ แค่เขียนโค้ด! ผลงานใหม่จากทีม Jeff Clune: Meta Agent พัฒนาโมดูลหน่วยความจำอัตโนมัติ

สู่ Software 3.0, AI เริ่มเขียนโค้ด Python เองเพื่อพัฒนาสมองแล้ว

ALMA

ในส่วนลึกของการพัฒนา Agent, หน่วยความจำ (Memory) ยังคงเป็นปัญหาที่ไม่สามารถหลีกเลี่ยงได้

แม้ว่าความสามารถของโมเดลพื้นฐานจะแข็งแกร่งขึ้นเรื่อยๆ แต่ในกระบวนการอนุมานนั้นโดยพื้นฐานแล้วจะไม่มีสถานะ (Stateless) ซึ่งจำกัดความสามารถของ Agent ในการสะสมประสบการณ์อย่างต่อเนื่อง

ปัจจุบันโซลูชันหลักที่ใช้ในการจัดการหน่วยความจำในอุตสาหกรรม ไม่ว่าจะเป็น RAG หรือสรุปหน้าต่างบานเลื่อน โดยพื้นฐานแล้วยังคงอยู่ในขั้นตอนของกฎเกณฑ์เชิงฮิวริสติกที่ออกแบบโดยมนุษย์

โมดูลหน่วยความจำที่สร้างขึ้นด้วยมือนี้มีความเปราะบางอย่างยิ่งและยากต่อการถ่ายโอน การปรับแต่ง Prompt และตรรกะการค้นหาอย่างพิถีพิถันสำหรับระบบสนทนา เมื่อนำไปใช้ในงานวางแผนระยะยาว (เช่น ALFWorld) หรือเกมกลยุทธ์ที่ซับซ้อน มักจะล้มเหลวโดยตรง

ALMA架构

เพื่อแก้ไขปัญหานี้ ทีมงานของ Jeff Clune ศาสตราจารย์จาก UBC และอดีตนักวิจัยของ OpenAI ได้นำเสนอโซลูชันแบบ Geek

ในเมื่อไม่รู้ว่าโครงสร้างหน่วยความจำแบบไหนดีที่สุด ก็ให้ Agent เขียนโค้ด Python เองเพื่อออกแบบ

นี่คือ ALMA (Automated meta-Learning of Memory designs for Agentic systems) ที่เพิ่งเปิดตัว

จาก ADAS สู่ ALMA: การออกแบบอัตโนมัติโดยใช้โค้ดเป็นพื้นฐาน

ALMA เป็นความต่อเนื่องของแนวทางเทคโนโลยีอัลกอริธึมการสร้าง AI ที่ทีมงานส่งเสริมเมื่อเร็วๆ นี้

ADAS

ใน ADAS (Automated Design of Agentic Systems) ทีมงานได้พิสูจน์แล้วว่าในการออกแบบสถาปัตยกรรม Agent โค้ดเป็นพื้นที่ค้นหาที่มีประสิทธิภาพมากกว่าน้ำหนักของโครงข่ายประสาทเทียมหรือ Soft Prompts โค้ดมีความสมบูรณ์แบบของ Turing และมีความสามารถในการตีความที่แข็งแกร่ง

Meta Agent

ต่อมาใน DGM (Darwin Gödel Machine) ทีมงานได้นำเสนอแนวคิดการสำรวจแบบเปิดในอัลกอริธึมวิวัฒนาการ โดยดูแลรักษาคลังออกแบบและสนับสนุนให้โมเดลสำรวจโซลูชันใหม่ๆ

DGM

ALMA สืบทอดกระบวนทัศน์การสร้างโค้ดของ ADAS และกลยุทธ์วิวัฒนาการของ DGM โดยมุ่งเน้นไปที่ส่วนประกอบที่พึ่งพาประสบการณ์ของมนุษย์มากที่สุดในระบบ Agent นั่นคือ หน่วยความจำ

กลไกการทำงานของ ALMA

กลไกการทำงานของ ALMA เป็นวงปิด Meta-Learning มาตรฐาน Meta Agent ไม่ได้จัดการงานโดยตรงอีกต่อไป แต่รับผิดชอบในการเขียนโปรแกรม กระบวนการนี้ประกอบด้วยสี่ขั้นตอน:

การคิด (Ideation): วิเคราะห์คลังออกแบบหน่วยความจำปัจจุบัน โดยอิงตามประสิทธิภาพในอดีตเพื่อคิดค้นแผนการปรับปรุง
การวางแผน (Planning): แปลงความคิดให้เป็นตรรกะรหัสเทียม
การนำไปใช้ (Implementation): เขียนโค้ด Python ที่สามารถเรียกใช้งานได้ กำหนดฟังก์ชันหลัก
การประเมิน (Evaluation): นำโค้ดที่สร้างขึ้นไปปรับใช้ในสภาพแวดล้อม Sandbox เพื่อดำเนินงาน และให้ข้อเสนอแนะเกี่ยวกับตัวชี้วัดประสิทธิภาพ

工作流程

ในกระบวนการวิวัฒนาการ ALMA จะสร้างแผนผังการออกแบบขนาดใหญ่ เมื่อจำนวนขั้นตอนการวนซ้ำเพิ่มขึ้น โค้ดหน่วยความจำที่สร้างขึ้นจะค่อยๆ พัฒนาจากตรรกะการจัดเก็บง่ายๆ ไปสู่สถาปัตยกรรมความรู้ความเข้าใจที่ซับซ้อน

进化树

โครงสร้างหน่วยความจำที่พัฒนาขึ้น

การออกแบบหน่วยความจำที่ ALMA สร้างขึ้นแสดงให้เห็นถึงความแตกต่างอย่างมากในงานต่างๆ:

MiniHack (สำรวจดันเจี้ยน): ออกแบบโมดูล Risk and Interaction โดยบันทึกการกระทำที่ทำให้เสียเลือดและการโจมตีของสัตว์ประหลาดอย่างชัดเจน
Baba Is AI (ไขปริศนาเชิงตรรกะ): ออกแบบ Strategy Library โดยบันทึกชุดกฎที่จำเป็นในการผ่านด่าน

记忆结构

สิ่งนี้บ่งชี้ว่า AI สามารถระบุลักษณะงานได้: เกมเอาชีวิตรอดต้องให้ความสนใจกับความเสี่ยง เกมไขปริศนาต้องให้ความสนใจกับการนามธรรมของกฎ

ผลการทดลอง

เปรียบเทียบ ALMA กับเส้นฐานหลักในสี่สภาพแวดล้อม ได้แก่ TextWorld, ALFWorld, MiniHack และ Baba Is AI

ในโมเดล GPT-5-mini อัตราความสำเร็จเฉลี่ยของ ALMA สูงถึง 53.9% ซึ่งดีกว่า G-Memory (46.0%) และ Trajectory Retrieval (48.6%)

实验结果

ในด้านประสิทธิภาพด้านต้นทุน ALMA ใช้ 1,319 tokens โดยเฉลี่ย ในขณะที่ Trajectory Retrieval ใช้สูงถึง 9,149 tokens และ G-Memory ก็สูงถึง 6,055 tokens เช่นกัน ALMA แลกเปลี่ยนประสิทธิภาพที่ดีกว่าด้วยค่าใช้จ่ายเพียงประมาณ 1/7 ถึง 1/5

成本效率

สรุป

ALMA แสดงให้เห็นถึงความเป็นไปได้ในการเปลี่ยนจาก Software 2.0 (Neural Networks) ไปสู่ Software 3.0 (AI-Generating Algorithms)

ในการพัฒนา Agent การออกแบบโมดูลหน่วยความจำขึ้นอยู่กับสัญชาตญาณของวิศวกรมาเป็นเวลานาน ALMA พิสูจน์ให้เห็นว่าด้วย Meta-Learning และการสร้างโค้ด AI สามารถค้นหาสถาปัตยกรรมหน่วยความจำที่ดีที่สุดโดยอัตโนมัติตามสภาพแวดล้อมเฉพาะ