GLM-5：Khi mô hình lớn học cách "tự viết mã", từ Vibe Coding đến sự tiến hóa của Kỹ thuật Tác nhân

❝

🎯 Tóm tắt trong một câu：智谱AI联合清华大学推出744B参数的GLM-5模型，通过DeepSeek Sparse Attention（DSA）压缩注意力计算量、全异步强化学习（Async RL）解决长任务训练效率、以及多阶段后训练流程，让大模型从"氛围编码"（Vibe Coding）进化到能独立完成真实工程项目的"智能体工程师"（Agentic Engineering）。

Tại sao cần bài báo này?

Andrej Karpathy đã đưa ra một khái niệm thú vị vào đầu năm 2025 - Vibe Coding, có nghĩa là bạn chỉ cần mô tả yêu cầu bằng ngôn ngữ tự nhiên, "dựa vào cảm giác" để AI viết mã. Đây thực sự là trải nghiệm chính của lập trình AI hiện tại: bạn nói một câu, mô hình giúp bạn tạo ra một đoạn mã, hiệu quả tốt hay không hoàn toàn phụ thuộc vào may mắn.

Nhưng vấn đề là: Kỹ thuật phần mềm thực sự không chỉ đơn giản là "viết mã". Một kỹ sư thực thụ cần hiểu kiến trúc dự án, gỡ lỗi, quản lý phụ thuộc, xử lý hợp tác giữa các mô-đun - tất cả những điều này không thể giải quyết chỉ bằng "một prompt ra một đoạn mã". Bài báo GLM-5 này nhằm mục đích biến mô hình từ "trợ lý viết mã" thành "kỹ sư có thể tự hoàn thành toàn bộ dự án".

Đây không phải là một mục tiêu nhỏ. Để đạt được điều này, đội ngũ智谱 đã thực hiện nhiều đổi mới trong kiến trúc mô hình, quy trình đào tạo và thuật toán học tăng cường. Bài giải thích này sẽ giúp bạn phân tích những chi tiết kỹ thuật này.

Đóng góp chính: Ba mũi nhọn

Trước khi đi vào chi tiết, hãy làm rõ ba đóng góp chính của GLM-5:

| Đóng góp | Vấn đề giải quyết | Ý tưởng cốt lõi | | --- | --- | --- | | DSA Sparse Attention | Chi phí tính toán cho ngữ cảnh dài 128K bùng nổ | Chọn lọc động các token quan trọng, bỏ qua những cái không liên quan, tiết kiệm 1.5-2 lần sức mạnh tính toán | | Khung học tăng cường bất đồng bộ | Trong đào tạo RL cho nhiệm vụ dài, GPU thường xuyên nhàn rỗi | Tách biệt hoàn toàn giữa việc tạo ra và đào tạo, song song theo kiểu ống dẫn | | Quy trình đào tạo đa giai đoạn | Khó khăn trong việc cân bằng nhiều khả năng như suy luận, mã hóa, tác nhân | SFT → Suy luận RL → Tác nhân RL → RL tổng quát, dần dần tích lũy khả năng |

Kiến trúc mô hình: Thực hiện "phép trừ" trên khung MoE

Cấu hình cơ bản

GLM-5 sử dụng kiến trúc Mixture-of-Experts (MoE), tổng số tham số là 744B, nhưng mỗi lần suy luận chỉ kích hoạt khoảng 40B tham số. Thiết kế "lớn và thưa" này đã trở thành sự đồng thuận trong ngành - DeepSeek-V3/R1, Qwen3 cũng đi theo con đường tương tự.

DSA thực sự hoạt động như thế nào?

Ý tưởng cốt lõi của DSA có thể được hiểu qua một phép ẩn dụ: hãy tưởng tượng bạn đang tìm tài liệu trong thư viện. Chú ý tiêu chuẩn giống như việc lật từng cuốn sách trong toàn bộ thư viện, sau đó quyết định cuốn nào hữu ích. Còn DSA giống như một thủ thư có kinh nghiệm - nó trước tiên sử dụng Lightning Index để quét nhanh tiêu đề sách, xác định một số khu vực có thể liên quan, sau đó chỉ đọc kỹ các đoạn cụ thể trong những khu vực đó.

Quy trình đào tạo: Bốn giai đoạn "cấp độ"

Quy trình đào tạo của GLM-5 là phần trọng tâm của bài báo này, chia thành hai giai đoạn lớn: Đào tạo trước và Đào tạo sau.

Giai đoạn đào tạo trước

Quy mô dữ liệu: 27T token, tỷ lệ dữ liệu bao gồm trang web, mã, tài liệu học thuật, sách, v.v.
Mở rộng ngữ cảnh: Thông qua đào tạo giữa kỳ, mở rộng ngữ cảnh từ 4K lên 200K, sử dụng điều chỉnh tần số RoPE
Giai đoạn làm nguội: Cuối giai đoạn đào tạo trước, sử dụng dữ liệu chất lượng cao hơn để "tinh chỉnh"

Bốn bước đào tạo sau

Đây là phần đặc trưng nhất của GLM-5. GLM-5 đã thực hiện bốn vòng:

Tinh chỉnh giám sát (SFT) sử dụng dữ liệu chỉ dẫn chất lượng cao để tinh chỉnh.
Học tăng cường suy luận (Reasoning RL) thực hiện đào tạo RL trên các nhiệm vụ suy luận toán học và mã.
Học tăng cường tác nhân (Agentic RL), đây là đổi mới quan trọng.
Học tăng cường tổng quát (General RL), thực hiện RL trên các nhiệm vụ tổng quát rộng hơn.

Học tăng cường bất đồng bộ: Giúp GPU không còn "làm việc lặt vặt"

Đào tạo RL truyền thống là đồng bộ: thu thập một lô dữ liệu → tính toán phần thưởng → cập nhật mô hình → thu thập lại. Điều này không vấn đề gì trong trường hợp thời gian nhiệm vụ ngắn, nhưng nhiệm vụ tác nhân thường cần hàng chục bước tương tác.

Phân tích sâu kết quả thí nghiệm

So sánh các tiêu chuẩn chính

| Tiêu chuẩn | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

Tóm tắt

Bài báo GLM-5 chứa rất nhiều thông tin. Bỏ qua các con số cụ thể, thông điệp cốt lõi mà nó truyền tải là: Chiến trường tiếp theo của mô hình lớn là "làm việc" chứ không chỉ "trả lời câu hỏi".

Về mặt cạnh tranh, GLM-5 chứng minh sức cạnh tranh của đội ngũ AI Trung Quốc trong nghiên cứu mô hình lớn tiên tiến.

Thông tin bài báo

Tiêu đề: GLM-5: từ Vibe Coding đến Kỹ thuật Tác nhân
Tổ chức:智谱AI & 清华大学
Liên kết: https://arxiv.org/abs/2602.15763

GLM-5：Khi mô hình lớn học cách "tự viết mã", từ Vibe Coding đến sự tiến hóa của Kỹ thuật Tác nhân

GLM-5：Khi mô hình lớn học cách "tự viết mã", từ Vibe Coding đến sự tiến hóa của Kỹ thuật Tác nhân

Tại sao cần bài báo này?

Đóng góp chính: Ba mũi nhọn

Kiến trúc mô hình: Thực hiện "phép trừ" trên khung MoE

Cấu hình cơ bản

DSA thực sự hoạt động như thế nào?

Quy trình đào tạo: Bốn giai đoạn "cấp độ"

Giai đoạn đào tạo trước

Bốn bước đào tạo sau

Học tăng cường bất đồng bộ: Giúp GPU không còn "làm việc lặt vặt"

Phân tích sâu kết quả thí nghiệm

So sánh các tiêu chuẩn chính

Tóm tắt

Thông tin bài báo

You Might Also Like

Hướng dẫn chỉnh sửa Claude Code Buddy: Cách nhận thú cưng huyền thoại phát sáng

Obsidian đã ra mắt Defuddle, đưa Obsidian Web Clipper lên một tầm cao mới

OpenAI đột ngột công bố "ba trong một": Trình duyệt + lập trình + ChatGPT hợp nhất, nội bộ thừa nhận đã đi sai đường trong năm qua

2026, không còn ép bản thân 'kỷ luật'! Làm tốt 8 việc nhỏ này, sức khỏe tự nhiên đến

Những bà mẹ cố gắng giảm cân nhưng không thành công, chắc chắn đều mắc phải điều này

Hướng dẫn vận hành ổn định AI Browser 24 giờ