GLM-5：เมื่อโมเดลขนาดใหญ่เรียนรู้ที่จะ "เขียนโค้ดด้วยตัวเอง" การข้ามจาก Vibe Coding สู่ Agentic Engineering

❝

🎯 สรุปในประโยคเดียว：智谱AI ร่วมกับมหาวิทยาลัย Tsinghua เปิดตัวโมเดล GLM-5 ที่มีพารามิเตอร์ 744B โดยใช้ DeepSeek Sparse Attention (DSA) เพื่อลดปริมาณการคำนวณความสนใจ, การเรียนรู้เสริมแบบไม่ซิงโครนัส (Async RL) เพื่อแก้ปัญหาประสิทธิภาพการฝึกงานที่ยาวนาน, และกระบวนการฝึกหลังหลายขั้นตอน ทำให้โมเดลขนาดใหญ่พัฒนาจาก "Vibe Coding" ไปสู่ "Agentic Engineering" ที่สามารถทำโปรเจกต์วิศวกรรมจริงได้ด้วยตัวเอง。

ทำไมถึงต้องอ่านเอกสารนี้？

Andrej Karpathy ได้เสนอแนวคิดที่น่าสนใจในต้นปี 2025 - Vibe Coding หมายความว่าคุณเพียงแค่ต้องอธิบายความต้องการด้วยภาษาธรรมชาติ, "ตามความรู้สึก" ให้ AI เขียนโค้ดก็พอ นี่คือประสบการณ์หลักของการเขียนโปรแกรม AI ในปัจจุบัน: คุณพูดประโยคหนึ่ง โมเดลช่วยคุณสร้างโค้ดหนึ่งบรรทัด ผลลัพธ์จะดีหรือไม่ขึ้นอยู่กับโชค。

แต่ปัญหาคือ: วิศวกรรมซอฟต์แวร์ที่แท้จริงไม่ใช่แค่ "การเขียนโค้ด" ง่ายๆ วิศวกรที่แท้จริงต้องเข้าใจสถาปัตยกรรมของโปรเจกต์, แก้ไขข้อผิดพลาด, จัดการการพึ่งพา, จัดการการทำงานร่วมกันข้ามโมดูล - สิ่งเหล่านี้ไม่สามารถทำได้ด้วย "การป้อนคำสั่งเพื่อให้ได้โค้ด" GLM-5 เอกสารนี้มีเป้าหมายที่จะทำให้โมเดลเปลี่ยนจาก "ผู้ช่วยในการเขียนโค้ด" เป็น "วิศวกรที่สามารถจัดการโปรเจกต์ทั้งหมดได้ด้วยตัวเอง"。

นี่ไม่ใช่เป้าหมายเล็กน้อย เพื่อให้บรรลุเป้าหมายนี้ ทีมงาน智谱ได้ทำการนวัตกรรมมากมายในด้านสถาปัตยกรรมโมเดล, กระบวนการฝึก, และอัลกอริธึมการเรียนรู้เสริม เอกสารนี้จะพาคุณไปทำความเข้าใจรายละเอียดทางเทคนิคเหล่านี้。

การมีส่วนร่วมหลัก: สามจุดสำคัญ

ก่อนที่จะลงลึกในรายละเอียด ให้ชัดเจนเกี่ยวกับสามการมีส่วนร่วมหลักของ GLM-5:

การมีส่วนร่วมปัญหาที่แก้ไขแนวคิดหลักDSA ความสนใจแบบกระจายค่าใช้จ่ายในการคำนวณบริบทยาว 128K ระเบิดเลือก token ที่สำคัญแบบไดนามิก, ข้ามที่ไม่เกี่ยวข้อง, ประหยัดพลังการคำนวณ 1.5-2 เท่ากรอบการเรียนรู้เสริมแบบไม่ซิงโครนัสการฝึก RL งานยาว GPU ว่างมากการสร้างและการฝึกแยกออกจากกันอย่างสมบูรณ์, ขนานแบบสายการผลิตกระบวนการฝึกหลังหลายขั้นตอนการอนุมาน, การเขียนโค้ด, ความสามารถของตัวแทนต่างๆ ยากที่จะดูแล SFT→การอนุมาน RL→ตัวแทน RL→RL ทั่วไป, ค่อยๆ เพิ่มความสามารถ

สถาปัตยกรรมโมเดล: ทำ "การลบ" บนโครงสร้าง MoE

การกำหนดพื้นฐาน

GLM-5 ใช้สถาปัตยกรรม Mixture-of-Experts (MoE) โดยมีพารามิเตอร์ทั้งหมด 744B แต่ในการอนุมานแต่ละครั้งจะเปิดใช้งานพารามิเตอร์ประมาณ 40B เท่านั้น การออกแบบ "ใหญ่และกระจาย" นี้ได้กลายเป็นฉันทามติในอุตสาหกรรม - DeepSeek-V3/R1, Qwen3 ก็ใช้แนวทางที่คล้ายกัน。

DSA ทำงานอย่างไร？

แนวคิดหลักของ DSA สามารถเข้าใจได้ด้วยการเปรียบเทียบ: ลองจินตนาการว่าคุณกำลังค้นหาข้อมูลในห้องสมุด ความสนใจมาตรฐาน เหมือนกับการเปิดหนังสือทุกเล่มในห้องสมุดแล้วตัดสินใจว่าเล่มไหนมีประโยชน์ ในขณะที่ DSA เหมือนกับบรรณารักษ์ที่มีประสบการณ์ - มันจะใช้ Lightning Index สแกนชื่อหนังสืออย่างรวดเร็ว, ระบุพื้นที่ที่อาจเกี่ยวข้อง, แล้วอ่านเฉพาะย่อหน้าที่อยู่ในพื้นที่เหล่านั้น。

กระบวนการฝึก: การ "อัพเกรด" แบบสี่ขั้นตอน

กระบวนการฝึกของ GLM-5 เป็นจุดเด่นของเอกสารนี้ แบ่งออกเป็นสองขั้นตอนหลักคือ การฝึกเบื้องต้น และ การฝึกหลัง。

ขั้นตอนการฝึกเบื้องต้น

ขนาดข้อมูล: 27T token, สัดส่วนข้อมูลรวมถึงเว็บ, โค้ด, เอกสารวิจัย, หนังสือ ฯลฯ
การขยายบริบท: ขยายบริบทจาก 4K เป็น 200K ผ่านการฝึกกลาง, ใช้การปรับความถี่ RoPE
ขั้นตอนการอบรม: ใช้ข้อมูลคุณภาพสูงในการ "ปรับแต่ง" ในตอนท้ายของการฝึกเบื้องต้น

การฝึกหลังสี่ขั้นตอน

นี่คือส่วนที่มีเอกลักษณ์ที่สุดของ GLM-5 GLM-5 ทำการฝึก สี่รอบ:

การปรับแต่งแบบมีการควบคุม (SFT) ใช้ข้อมูลคำสั่งคุณภาพสูงในการปรับแต่ง
การเรียนรู้เสริมการอนุมาน (Reasoning RL) ทำการฝึก RL ในงานการอนุมานทางคณิตศาสตร์และโค้ด
การเรียนรู้เสริมตัวแทน (Agentic RL) นี่คือการนวัตกรรมที่สำคัญ
การเรียนรู้เสริมทั่วไป (General RL) ทำการฝึก RL ในงานทั่วไปที่กว้างขึ้น

การเรียนรู้เสริมแบบไม่ซิงโครนัส: ทำให้ GPU ไม่ "ทำงานน้อย"

การฝึก RL แบบดั้งเดิมเป็นแบบ ซิงโครนัส: รวบรวมข้อมูลชุดหนึ่ง → คำนวณรางวัล → อัปเดตโมเดล → รวบรวมอีกครั้ง สิ่งนี้ไม่มีปัญหาในกรณีที่เวลางานสั้น แต่ภารกิจของตัวแทนมักต้องการการโต้ตอบหลายสิบครั้ง。

การวิเคราะห์ผลการทดลองอย่างลึกซึ้ง

การเปรียบเทียบมาตรฐานหลัก

มาตรฐานGLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9

สรุป

เอกสาร GLM-5 มีข้อมูลมากมาย นอกจากตัวเลขที่เฉพาะเจาะจงแล้ว ข้อมูลหลักที่ส่งต่อคือ: สนามรบถัดไปของโมเดลขนาดใหญ่คือ "การทำงาน" ไม่ใช่แค่ "การตอบคำถาม"。

ในด้านการแข่งขัน GLM-5 ได้พิสูจน์ถึงความสามารถของทีม AI ของจีนในการวิจัยโมเดลขนาดใหญ่ที่ทันสมัย.