Thời khắc Opus của giới mã nguồn mở: GLM-5 có thể tiếp nhận cây gậy tiếp sức Agentic Coding?

Nếu bạn hỏi một nhà phát triển, khoảnh khắc khiến AI lập trình nản lòng nhất là gì?

Câu trả lời của anh ấy rất có thể là câu nói máy móc "Xin lỗi, tôi hiểu sai rồi" trước lỗi, sau đó lặp lại một đoạn mã sai tương tự.

Trong năm qua, sự tiến bộ của mô hình Coding lớn thể hiện rõ hơn ở "khả năng tạo": một câu tạo ra trang web, thành phần, trò chơi nhỏ - tạo ra một trang web theo phong cách pixel, một biểu tượng SVG tuyệt vời hoặc một trò chơi rắn có thể chạy được trong vòng 15 giây. Những bản Demo này đủ tuyệt vời, nhưng cũng đủ "nhẹ", chúng giống như những món đồ chơi cao cấp được tạo ra trong thời đại Vibe Coding (lập trình theo cảm hứng). Nhưng khi liên quan đến kiến trúc đồng thời cao, điều chỉnh trình điều khiển cấp thấp hoặc tái cấu trúc hệ thống phức tạp, chúng trở thành "những bông hoa trong nhà kính".

Vì vậy, gần đây, xu hướng ở Thung lũng Silicon đã thay đổi.

Dù là Claude Opus 4.6 hay GPT-5.3, những mô hình lớn hàng đầu này bắt đầu nhấn mạnh Agentic Coding: không theo đuổi "kết quả ngay lập tức", mà là hoàn thành các nhiệm vụ cấp hệ thống thông qua lập kế hoạch, phân tích, chạy lặp đi lặp lại.

Sự thay đổi mô hình từ "thẩm mỹ giao diện người dùng" sang "kỹ thuật hệ thống" này từng được coi là khu vực độc quyền của các gã khổng lồ nguồn đóng. Cho đến khi tôi thử nghiệm GLM-5, tôi mới nhận ra rằng "kỷ nguyên kiến trúc sư" của cộng đồng mã nguồn mở đã bắt đầu sớm hơn.

Từ "giao diện người dùng" đến "kỹ thuật hệ thống"

Trước đây, khi nói về AI Coding, hầu hết mọi người sẽ nghĩ đến một câu chuyện quen thuộc - một câu tạo ra trang web, một phút tạo ra một trò chơi nhỏ, mười giây để xây dựng một hiệu ứng động tuyệt vời. Chúng nhấn mạnh "cảm giác sảng khoái trực quan": nút sẽ di chuyển, trang đẹp, hiệu ứng đặc biệt phong phú.

Nhưng những người thực sự bước vào công trường kỹ thuật đều biết rằng, việc tạo ra một bản Demo không có nghĩa là có thể hỗ trợ một hệ thống.

Độ khó của các nhiệm vụ phức tạp không nằm ở "viết mã", mà là cách phân chia các mô-đun, cách quản lý trạng thái, cách xử lý ngoại lệ, cách tối ưu hóa hiệu suất và liệu có thể duy trì sự ổn định cấu trúc khi hệ thống bắt đầu trở nên phức tạp hay không.

Đây cũng là lý do tại sao chúng tôi chọn các nhiệm vụ phức tạp làm đối tượng thử nghiệm thực tế.

Định vị của GLM-5 khác với nhiều đối thủ cạnh tranh.

Nếu nói rằng hầu hết các mô hình giống "giao diện người dùng xuất sắc" hơn - giỏi tạo nhanh giao diện tương tác và hiệu ứng hình ảnh, thì GLM-5 thiên về "vai trò kỹ thuật hệ thống" hơn. Nó nhấn mạnh sự hợp tác đa mô-đun, nhiệm vụ chuỗi dài, tính ổn định cấu trúc có thể chạy được trong môi trường sản xuất.

Để xác minh điều này, chúng tôi đã thiết kế hai trường hợp thử nghiệm thực tế với các chiều hoàn toàn khác nhau.

Bài kiểm tra đầu tiên, một nhiệm vụ có vẻ dễ dàng nhưng thực tế có tính hệ thống cao - dựa trên trình duyệt và máy ảnh, thực hiện một trò chơi tương tác chủ đề Tết Nguyên đán "AI điều khiển pháo hoa bằng hình ảnh trên không".

Trong video thử nghiệm thực tế, có thể thấy rằng người dùng đứng trước máy ảnh, điều khiển hướng và nhịp điệu bắn pháo hoa bằng cử chỉ; pháo hoa nở trên không, kèm theo hiệu ứng hạt và phản hồi hiệu ứng ánh sáng động, tương tác tổng thể mượt mà và tự nhiên.

Nhưng đây không phải là một dự án hiệu ứng động giao diện người dùng đơn giản. Nó ít nhất bao gồm các mô-đun cốt lõi sau: nhận dạng cử chỉ và xử lý đầu vào hình ảnh; ánh xạ tọa độ cử chỉ đến logic bắn; hệ thống hạt pháo hoa và hiệu ứng nở; kết xuất thời gian thực và kiểm soát tốc độ khung hình; khả năng tương thích trình duyệt và xử lý ngoại lệ quyền máy ảnh; quản lý trạng thái tương tác và cơ chế phản hồi của người dùng

Có thể nói đây là một hệ thống tương tác nhỏ có cấu trúc hoàn chỉnh và trải nghiệm mượt mà. Từ quá trình thử nghiệm thực tế, có thể thấy rằng GLM-5 không trực tiếp đi vào mã hóa, mà trước tiên lập kế hoạch cho kiến trúc tổng thể: cách tách biệt mô-đun đầu vào hình ảnh, lớp logic điều khiển, lớp kết xuất, lớp hiệu ứng đặc biệt; cách truyền luồng dữ liệu; những phần nào có thể trở thành nút thắt cổ chai về hiệu suất.

Sau đó, nó thực hiện logic theo từng lớp, bắt đầu từ xử lý dữ liệu nhận dạng cử chỉ, đến tính toán quỹ đạo bắn, đến điều chỉnh các tham số của hiệu ứng nổ hạt.

Khi kết xuất bị giật, nó chủ động đề xuất giảm số lượng hạt, tối ưu hóa cấu trúc vòng lặp; khi nhận dạng cử chỉ bị phán đoán sai, nó điều chỉnh ngưỡng và chiến lược lọc.

Hiệu ứng được trình bày trong video là "tương tác trông rất tự nhiên". Nhưng điều thể hiện đằng sau là chuỗi kỹ thuật hoàn chỉnh: lập kế hoạch → viết → gỡ lỗi → tối ưu hóa hiệu suất → hiệu chỉnh tương tác.

Mã được tạo cuối cùng có thể chạy trực tiếp, tương tác ổn định, tốc độ khung hình mượt mà, có thể xử lý các trường hợp ngoại lệ. Quan trọng hơn, cách làm việc của nó thể hiện tư duy hệ thống rõ ràng: ranh giới mô-đun rõ ràng, phân lớp logic hợp lý, thay vì xếp chồng tất cả các chức năng vào một tệp.

Trường hợp thử nghiệm thứ hai là khả năng hệ thống cấu trúc. Tình huống này có thể nói là công việc hàng ngày của giới truyền thông - nhập một đoạn ghi tốc ký phỏng vấn, tóm tắt nội dung, đưa ra góc độ và ý tưởng chủ đề.

Trong thử nghiệm thực tế, có thể thấy rằng quy trình hoạt động rất trực tiếp: Tôi dán một bản ghi tốc ký phỏng vấn gần đây, mô hình bắt đầu phân tích, sau đó đưa ra bản tóm tắt nội dung và góc độ chủ đề. Từ kết quả, góc độ chủ đề mà nó tạo ra vẫn rất khả thi.

So với hệ thống tương tác hình ảnh, việc sắp xếp bản ghi âm có vẻ đơn giản, nhưng thực tế nó kiểm tra "khả năng trừu tượng hóa cấu trúc" của mô hình. Một bản ghi âm phỏng vấn thực tế thường có tính phi cấu trúc cao: quan điểm nhảy vọt, thông tin lặp lại, đường chính và đường nhánh xen kẽ. Vì vậy, trong trường hợp này, khả năng mà GLM-5 thể hiện là ở cấp độ hệ thống.

Đầu tiên là khả năng nhận dạng chủ đề và trích xuất đường chính. Mô hình không tạo bản tóm tắt theo thứ tự văn bản gốc, mà trước tiên xác định vấn đề cốt lõi là gì, sau đó tổ chức lại nội dung xung quanh vấn đề này. Điều này có nghĩa là nó đã hoàn thành một lần quét bên trong, xác định thông tin nào thuộc đường chính, thông tin nào thuộc phần bổ sung hoặc nhiễu. Bản chất của khả năng này là khả năng lập kế hoạch, tức là thiết lập một khung cấu trúc trừu tượng trước khi xuất.

Thứ hai, là khả năng tái tổ hợp theo mô-đun. Nó sẽ phân loại các quan điểm liên quan nằm rải rác trong các đoạn khác nhau vào cùng một mô-đun. Khả năng tích hợp xuyên đoạn này cho thấy rằng mô hình có tính nhất quán toàn cục khi xử lý văn bản dài.

Thứ ba, khả năng điều chỉnh chủ động thứ tự logic. Đề cương được xuất thực tế thường khác với thứ tự bản ghi âm gốc. Có thể thấy rằng GLM-5 đang sắp xếp lại các cấp độ theo mối quan hệ nhân quả hoặc logic chứng minh. Điều này thể hiện một loại phán đoán "logic ưu tiên thứ tự đầu vào gốc". Mô hình "cấu trúc trước, xuất sau" này chính là cốt lõi của tư duy kỹ thuật hệ thống.

Hai trường hợp này, một là hệ thống tương tác hình ảnh thời gian thực, một là hệ thống xử lý cấu trúc thông tin truyền thông, có vẻ hoàn toàn khác nhau. Nhưng chúng xác minh cùng một điều - GLM-5 có khả năng khép kín nhiệm vụ hoàn chỉnh: lập kế hoạch → thực hiện → gỡ lỗi → tối ưu hóa.

Trong trò chơi pháo hoa, điều này thể hiện ở phân lớp mô-đun, tối ưu hóa hiệu suất và xử lý ngoại lệ; trong bộ xử lý bản ghi âm, điều này thể hiện ở phán đoán chủ đề, phân tích cấu trúc và tái tổ hợp logic. Điểm chung của chúng là, mô hình không dừng lại ở "tạo kết quả", mà là duy trì một cấu trúc có thể phát triển bền vững.

Tôi tiếp tục thử một nhiệm vụ tương đối phức tạp, "xây dựng một hạt nhân hệ điều hành cực kỳ tối giản". Trong thử nghiệm thực tế này. Điều thực sự đáng chú ý không phải là mã trong video cuối cùng đã chạy, mà là cách GLM-5 hành xử trong toàn bộ quá trình.

Nó không ngay lập tức đi vào trạng thái tạo khi nhận được nhiệm vụ, mà trước tiên xác định rõ ranh giới nhiệm vụ, chủ động phân chia các mô-đun, lập kế hoạch cấu trúc hệ thống, sau đó mới đi vào giai đoạn thực hiện. Con đường "cấu trúc đi trước" này, về bản chất là tư duy kỹ thuật mà tôi đã nói trước đó - trước tiên xác định hệ thống được cấu thành như thế nào, sau đó thảo luận về các chi tiết thực hiện cụ thể, thay vì vừa viết vừa ghép.

Trong vòng lặp nhiều vòng viết, chạy, báo lỗi, sửa chữa, GLM-5 cũng không xuất hiện sự sụp đổ cấu trúc. Mỗi lần sửa đổi đều xoay quanh kiến trúc đã định, thay vì lật đổ làm lại hoặc vá cục bộ. Điều này cho thấy rằng nó duy trì một mô hình hệ thống hoàn chỉnh bên trong, có thể duy trì tính nhất quán trong các nhiệm vụ chuỗi dài. Nhiều mô hình dễ bị mâu thuẫn trước sau khi kéo dài ngữ cảnh, và hiệu suất trong video thể hiện chính xác khả năng ghi nhớ liên tục cấu trúc tổng thể của nó.

Và cách nó xử lý lỗi. Khi lỗi xuất hiện, nó không dừng lại ở phỏng đoán bề mặt "có thể là vấn đề của một dòng mã nào đó", mà trước tiên xác định loại lỗi, phân biệt vấn đề logic, vấn đề môi trường hoặc xung đột phụ thuộc, sau đó lập kế hoạch đường dẫn kiểm tra. Đây là một Debug cấp chiến lược, nhằm mục đích sửa chữa đường dẫn vấn đề.

Nếu kết hợp với việc gọi công cụ, khả năng này sẽ rõ ràng hơn. Nó không chỉ đưa ra các đề xuất lệnh, mà còn kết hợp điều phối chủ động thực thi thiết bị đầu cuối, phân tích nhật ký, sửa chữa môi trường, sau đó tiếp tục thúc đẩy nhiệm vụ. Hành vi này đã gần giống với một loại thúc đẩy kỹ thuật kiểu "lái xe tự động". Nếu mục tiêu chưa hoàn thành, nó sẽ tiếp tục lặp lại.

Lập kế hoạch trước khi thực hiện, duy trì sự ổn định cấu trúc trong chuỗi dài, kiểm tra vấn đề theo cách chiến lược và tiếp tục thúc đẩy xung quanh mục tiêu - chính sự chồng chất của bốn khả năng cốt lõi cần thiết cho kỹ thuật hệ thống, đã khiến GLM-5 bắt đầu thể hiện một mô hình hành vi gần với cách làm việc của kỹ sư.

Tại sao GLM-5 có thể tiếp nhận cây gậy tiếp sức của "kiến trúc sư"?

Nếu phần đầu tiên của thử nghiệm thực tế chứng minh rằng GLM-5 "có thể làm những việc phức tạp", thì câu hỏi tiếp theo là: Tại sao nó có thể? Câu trả lời nằm ở toàn bộ "mô hình hành vi cấp kỹ thuật" ẩn sau đầu ra.

Một điểm quan trọng là, GLM-5 rõ ràng đã giới thiệu một cơ chế tự kiểm tra chuỗi tư duy tương tự như Claude Opus 4.6.

Trong quá trình sử dụng thực tế, có thể cảm thấy rằng, nó không bắt đầu "điền mã" ngay khi nhận được nhiệm vụ, mà sẽ thực hiện nhiều vòng suy luận logic ở chế độ nền: dự đoán mối quan hệ ghép nối giữa các mô-đun, chủ động tránh các đường dẫn vòng lặp vô tận, phát hiện trước các xung đột tài nguyên và các vấn đề về điều kiện biên. Sự thay đổi trực tiếp do hành vi này mang lại là - để đảm bảo rằng giải pháp có thể đứng vững về mặt kỹ thuật, nó sẵn sàng chậm lại và suy nghĩ kỹ về vấn đề.

Trong các nhiệm vụ phức tạp, GLM-5 sẽ đưa ra một phân tích mô-đun rõ ràng trước: hệ thống bao gồm những mô-đun con nào, đầu vào và đầu ra của mỗi mô-đun là gì, những phần nào có thể được thúc đẩy song song, những phần nào phải được hoàn thành tuần tự. Sau đó, nó sẽ chinh phục từng cái một, thay vì vừa viết vừa nghĩ. Điều này làm cho cách làm việc của nó giống một kỹ sư thực thụ hơn: vẽ sơ đồ kiến trúc trước, sau đó viết chi tiết thực hiện. Rõ ràng cảm thấy rằng, nó có một loại "sự kiên trì không chịu dừng lại nếu không giải quyết triệt để vấn đề", thay vì hoàn thành một phần có vẻ đúng và vội vàng kết thúc.

Sự khác biệt này đặc biệt rõ ràng khi so sánh với các mô hình Coding truyền thống. Trong quá khứ, nhiều mô hình khi gặp lỗi, sẽ nhanh chóng trượt vào một mô hình quen thuộc: xin lỗi, thuật lại thông tin lỗi, đưa ra một đề xuất sửa chữa chưa được xác minh; nếu thất bại một lần nữa, nó sẽ bắt đầu lặp lại các câu trả lời gần đúng. Cách xử lý của GLM-5 gần gũi hơn với các kiến trúc sư kỳ cựu. Trong thử nghiệm thực tế, khi dự án không thể chạy do vấn đề phụ thuộc môi trường, nó không dừng lại ở thông tin lỗi bề mặt, mà chủ động phân tích cây phụ thuộc (Dependency Tree), xác định nguồn gốc xung đột và tiếp tục chỉ huy OpenClaw để sửa chữa môi trường.

Toàn bộ quá trình giống như triển khai kiểu "lái xe tự động": mô hình không phản hồi thụ động, mà liên tục đọc nhật ký, sửa chữa đường dẫn, xác minh kết quả.

Một khả năng khác thường bị bỏ qua, nhưng cực kỳ quan trọng trong kỹ thuật hệ thống, là tính toàn vẹn của ngữ cảnh.

Cửa sổ Token hàng triệu cấp của GLM-5 cho phép nó hiểu cấu trúc mã, lịch sử sửa đổi, tệp cấu hình và nhật ký chạy của toàn bộ dự án trong cùng một ngữ cảnh. Điều này có nghĩa là nó đã có thể đánh giá những mô-đun nào sẽ bị ảnh hưởng bởi một lần sửa đổi từ góc độ toàn cục. Trong các nhiệm vụ chuỗi dài, khả năng này quyết định trực tiếp xem mô hình là "thông minh nhưng thiển cận" hay "ổn định và có thể kiểm soát".

Nhìn chung, GLM-5 thực sự tiếp nhận vai trò "kiến trúc sư", chủ yếu là vì nó bắt đầu suy nghĩ về vấn đề giống như kiến trúc sư: lập kế hoạch trước, sau đó thực hiện; liên tục xác minh, không ngừng sửa chữa; quan tâm đến toàn bộ hệ thống, thay vì thành công đơn lẻ.

Đây cũng là lý do cơ bản tại sao nó có thể hoàn thành những nhiệm vụ thử nghiệm thực tế cấp hệ thống trong phần đầu tiên.

Opus của giới mã nguồn mở?

Đặt trong hệ sinh thái mô hình lớn năm 2026, giá trị của GLM-5 nằm nhiều hơn ở chỗ nó đã phá vỡ một điều mà trước đây gần như được chấp nhận mặc định: trí thông minh cấp hệ thống, dường như chỉ có thể tồn tại trong các mô hình nguồn đóng.

Trước đây, Claude Opus 4.6 và GPT-5.3 thực sự đã chạy thông con đường "Agentic Coding" - mô hình không còn theo đuổi phản hồi tức thì, mà là hoàn thành các nhiệm vụ kỹ thuật thực sự phức tạp thông qua lập kế hoạch, phân tích, chạy lặp đi lặp lại. Nhưng cái giá phải trả cũng rất cao: mức tiêu thụ Token của các nhiệm vụ cường độ cao là cực kỳ cao, một thử nghiệm cấp hệ thống hoàn chỉnh thường có nghĩa là chi phí gọi không hề nhỏ.

GLM-5 cung cấp một giải pháp khác ở đây. Là một mô hình mã nguồn mở, nó đã đưa "AI cấp kiến trúc sư hệ thống" từ đám mây và hóa đơn, trở lại môi trường của chính nhà phát triển. Bạn có thể triển khai nó cục bộ, để nó dành thời gian nghiền ngẫm những công việc bẩn thỉu, mệt mỏi, lớn lao: điều chỉnh nhật ký, kiểm tra phụ thuộc, sửa mã cũ, bổ sung điều kiện biên.

Điều này có thể được coi là một sự thay đổi cấu trúc về hiệu quả chi phí - trí thông minh cấp kiến trúc sư không còn là đặc quyền của một số ít nhóm.

Nếu sử dụng phép ẩn dụ nghề nghiệp để hiểu sự khác biệt này, sẽ trực quan hơn. Các mô hình như Kimi 2.5 giống một kỹ sư giao diện người dùng xuất sắc, có thẩm mỹ trực tuyến và cảm giác tương tác cực cao, giỏi tạo One-shot, trình bày trực quan và phản hồi nhanh; trong khi phong cách của GLM-5 rõ ràng khác biệt, nó giống một kiến trúc sư hệ thống kỳ cựu, coi trọng đường cơ sở, coi trọng logic: quan tâm đến mối quan hệ mô-đun, đường dẫn ngoại lệ, khả năng bảo trì và vận hành ổn định lâu dài.

Đằng sau điều này, thực chất là một bước tiến nghề nghiệp rõ ràng của AI lập trình - từ theo đuổi Vibe Coding "trông rất sảng khoái", đến nhấn mạnh tính mạnh mẽ và kỷ luật kỹ thuật của Engineering.

Quan trọng hơn, sự xuất hiện của GLM-5, làm cho khái niệm công ty một người trở nên khả thi hơn.Khi một nhà phát triển có thể sở hữu một đối tác AI hiểu về thiết kế hệ thống, có thể chạy trong thời gian dài và có khả năng tự sửa lỗi tại chỗ, nhiều công việc kỹ thuật trước đây cần quy mô nhóm để hoàn thành bắt đầu được nén lại trong phạm vi kiểm soát cá nhân. Tiếp theo, GLM-5 có tiềm năng trở thành "đối tác kỹ thuật số" chịu trách nhiệm triển khai kỹ thuật cốt lõi trong một công ty một người.

Thời khắc Opus của giới mã nguồn mở: GLM-5 có thể tiếp nhận cây gậy tiếp sức Agentic Coding?

You Might Also Like

Hướng dẫn chỉnh sửa Claude Code Buddy: Cách nhận thú cưng huyền thoại phát sáng

Obsidian đã ra mắt Defuddle, đưa Obsidian Web Clipper lên một tầm cao mới

OpenAI đột ngột công bố "ba trong một": Trình duyệt + lập trình + ChatGPT hợp nhất, nội bộ thừa nhận đã đi sai đường trong năm qua

2026, không còn ép bản thân 'kỷ luật'! Làm tốt 8 việc nhỏ này, sức khỏe tự nhiên đến

Những bà mẹ cố gắng giảm cân nhưng không thành công, chắc chắn đều mắc phải điều này

Hướng dẫn vận hành ổn định AI Browser 24 giờ