GLM-5:เมื่อโมเดลขนาดใหญ่เรียนรู้ที่จะ "เขียนโค้ดด้วยตัวเอง" การข้ามจาก Vibe Coding สู่ Agentic Engineering
GLM-5:เมื่อโมเดลขนาดใหญ่เรียนรู้ที่จะ "เขียนโค้ดด้วยตัวเอง" การข้ามจาก Vibe Coding สู่ Agentic Engineering
❝
🎯 สรุปในประโยคเดียว:智谱AI ร่วมกับมหาวิทยาลัย Tsinghua เปิดตัวโมเดล GLM-5 ที่มีพารามิเตอร์ 744B โดยใช้ DeepSeek Sparse Attention (DSA) เพื่อลดปริมาณการคำนวณความสนใจ, การเรียนรู้เสริมแบบไม่ซิงโครนัส (Async RL) เพื่อแก้ปัญหาประสิทธิภาพการฝึกงานที่ยาวนาน, และกระบวนการฝึกหลังหลายขั้นตอน ทำให้โมเดลขนาดใหญ่พัฒนาจาก "Vibe Coding" ไปสู่ "Agentic Engineering" ที่สามารถทำโปรเจกต์วิศวกรรมจริงได้ด้วยตัวเอง。
ทำไมถึงต้องอ่านเอกสารนี้?
Andrej Karpathy ได้เสนอแนวคิดที่น่าสนใจในต้นปี 2025 - Vibe Coding หมายความว่าคุณเพียงแค่ต้องอธิบายความต้องการด้วยภาษาธรรมชาติ, "ตามความรู้สึก" ให้ AI เขียนโค้ดก็พอ นี่คือประสบการณ์หลักของการเขียนโปรแกรม AI ในปัจจุบัน: คุณพูดประโยคหนึ่ง โมเดลช่วยคุณสร้างโค้ดหนึ่งบรรทัด ผลลัพธ์จะดีหรือไม่ขึ้นอยู่กับโชค。
แต่ปัญหาคือ: วิศวกรรมซอฟต์แวร์ที่แท้จริงไม่ใช่แค่ "การเขียนโค้ด" ง่ายๆ วิศวกรที่แท้จริงต้องเข้าใจสถาปัตยกรรมของโปรเจกต์, แก้ไขข้อผิดพลาด, จัดการการพึ่งพา, จัดการการทำงานร่วมกันข้ามโมดูล - สิ่งเหล่านี้ไม่สามารถทำได้ด้วย "การป้อนคำสั่งเพื่อให้ได้โค้ด" GLM-5 เอกสารนี้มีเป้าหมายที่จะทำให้โมเดลเปลี่ยนจาก "ผู้ช่วยในการเขียนโค้ด" เป็น "วิศวกรที่สามารถจัดการโปรเจกต์ทั้งหมดได้ด้วยตัวเอง"。
นี่ไม่ใช่เป้าหมายเล็กน้อย เพื่อให้บรรลุเป้าหมายนี้ ทีมงาน智谱ได้ทำการนวัตกรรมมากมายในด้านสถาปัตยกรรมโมเดล, กระบวนการฝึก, และอัลกอริธึมการเรียนรู้เสริม เอกสารนี้จะพาคุณไปทำความเข้าใจรายละเอียดทางเทคนิคเหล่านี้。
การมีส่วนร่วมหลัก: สามจุดสำคัญ
ก่อนที่จะลงลึกในรายละเอียด ให้ชัดเจนเกี่ยวกับสามการมีส่วนร่วมหลักของ GLM-5:
การมีส่วนร่วมปัญหาที่แก้ไขแนวคิดหลักDSA ความสนใจแบบกระจายค่าใช้จ่ายในการคำนวณบริบทยาว 128K ระเบิดเลือก token ที่สำคัญแบบไดนามิก, ข้ามที่ไม่เกี่ยวข้อง, ประหยัดพลังการคำนวณ 1.5-2 เท่ากรอบการเรียนรู้เสริมแบบไม่ซิงโครนัสการฝึก RL งานยาว GPU ว่างมากการสร้างและการฝึกแยกออกจากกันอย่างสมบูรณ์, ขนานแบบสายการผลิตกระบวนการฝึกหลังหลายขั้นตอนการอนุมาน, การเขียนโค้ด, ความสามารถของตัวแทนต่างๆ ยากที่จะดูแล SFT→การอนุมาน RL→ตัวแทน RL→RL ทั่วไป, ค่อยๆ เพิ่มความสามารถ
สถาปัตยกรรมโมเดล: ทำ "การลบ" บนโครงสร้าง MoE
การกำหนดพื้นฐาน
GLM-5 ใช้สถาปัตยกรรม Mixture-of-Experts (MoE) โดยมีพารามิเตอร์ทั้งหมด 744B แต่ในการอนุมานแต่ละครั้งจะเปิดใช้งานพารามิเตอร์ประมาณ 40B เท่านั้น การออกแบบ "ใหญ่และกระจาย" นี้ได้กลายเป็นฉันทามติในอุตสาหกรรม - DeepSeek-V3/R1, Qwen3 ก็ใช้แนวทางที่คล้ายกัน。
DSA ทำงานอย่างไร?
แนวคิดหลักของ DSA สามารถเข้าใจได้ด้วยการเปรียบเทียบ: ลองจินตนาการว่าคุณกำลังค้นหาข้อมูลในห้องสมุด ความสนใจมาตรฐาน เหมือนกับการเปิดหนังสือทุกเล่มในห้องสมุดแล้วตัดสินใจว่าเล่มไหนมีประโยชน์ ในขณะที่ DSA เหมือนกับบรรณารักษ์ที่มีประสบการณ์ - มันจะใช้ Lightning Index สแกนชื่อหนังสืออย่างรวดเร็ว, ระบุพื้นที่ที่อาจเกี่ยวข้อง, แล้วอ่านเฉพาะย่อหน้าที่อยู่ในพื้นที่เหล่านั้น。
กระบวนการฝึก: การ "อัพเกรด" แบบสี่ขั้นตอน
กระบวนการฝึกของ GLM-5 เป็นจุดเด่นของเอกสารนี้ แบ่งออกเป็นสองขั้นตอนหลักคือ การฝึกเบื้องต้น และ การฝึกหลัง。
ขั้นตอนการฝึกเบื้องต้น
- ขนาดข้อมูล: 27T token, สัดส่วนข้อมูลรวมถึงเว็บ, โค้ด, เอกสารวิจัย, หนังสือ ฯลฯ
- การขยายบริบท: ขยายบริบทจาก 4K เป็น 200K ผ่านการฝึกกลาง, ใช้การปรับความถี่ RoPE
- ขั้นตอนการอบรม: ใช้ข้อมูลคุณภาพสูงในการ "ปรับแต่ง" ในตอนท้ายของการฝึกเบื้องต้น
การฝึกหลังสี่ขั้นตอน
นี่คือส่วนที่มีเอกลักษณ์ที่สุดของ GLM-5 GLM-5 ทำการฝึก สี่รอบ:
- การปรับแต่งแบบมีการควบคุม (SFT) ใช้ข้อมูลคำสั่งคุณภาพสูงในการปรับแต่ง
- การเรียนรู้เสริมการอนุมาน (Reasoning RL) ทำการฝึก RL ในงานการอนุมานทางคณิตศาสตร์และโค้ด
- การเรียนรู้เสริมตัวแทน (Agentic RL) นี่คือการนวัตกรรมที่สำคัญ
- การเรียนรู้เสริมทั่วไป (General RL) ทำการฝึก RL ในงานทั่วไปที่กว้างขึ้น
การเรียนรู้เสริมแบบไม่ซิงโครนัส: ทำให้ GPU ไม่ "ทำงานน้อย"
การฝึก RL แบบดั้งเดิมเป็นแบบ ซิงโครนัส: รวบรวมข้อมูลชุดหนึ่ง → คำนวณรางวัล → อัปเดตโมเดล → รวบรวมอีกครั้ง สิ่งนี้ไม่มีปัญหาในกรณีที่เวลางานสั้น แต่ภารกิจของตัวแทนมักต้องการการโต้ตอบหลายสิบครั้ง。
การวิเคราะห์ผลการทดลองอย่างลึกซึ้ง
การเปรียบเทียบมาตรฐานหลัก
มาตรฐานGLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9
สรุป
เอกสาร GLM-5 มีข้อมูลมากมาย นอกจากตัวเลขที่เฉพาะเจาะจงแล้ว ข้อมูลหลักที่ส่งต่อคือ: สนามรบถัดไปของโมเดลขนาดใหญ่คือ "การทำงาน" ไม่ใช่แค่ "การตอบคำถาม"。
ในด้านการแข่งขัน GLM-5 ได้พิสูจน์ถึงความสามารถของทีม AI ของจีนในการวิจัยโมเดลขนาดใหญ่ที่ทันสมัย.

