Saat Opus dalam Dunia Sumber Terbuka: Bolehkah GLM-5 Menerima Tongkat Estafet Pengkodan Agentik?
Jika anda bertanya kepada seorang pembangun, apakah saat yang paling mengecewakan dalam pengaturcaraan AI?
Jawapannya mungkin adalah ayat mekanikal "Maaf, saya salah faham" di hadapan ralat, dan kemudian mengulangi kod yang sama salah.
Dalam tahun lalu, kemajuan model Coding yang besar lebih banyak ditunjukkan dalam "keupayaan penjanaan": satu ayat menjana halaman web, komponen, permainan kecil—menghasilkan halaman web gaya piksel, ikon SVG yang menarik, atau permainan ular yang boleh dimainkan dalam masa 15 saat. Demo ini cukup menakjubkan, tetapi juga cukup "ringan", mereka agak seperti mainan mewah yang dihasilkan dalam era Vibe Coding (pengaturcaraan suasana). Tetapi apabila ia melibatkan seni bina konkurensi tinggi, penyesuaian pemacu asas atau pembentukan semula sistem yang kompleks, mereka menjadi "bunga di rumah hijau".
Jadi baru-baru ini, arah angin di Silicon Valley telah berubah.
Sama ada Claude Opus 4.6 atau GPT-5.3, model besar teratas ini mula menekankan Pengkodan Agentik: tidak mengejar "hasil segera", tetapi menyelesaikan tugas peringkat sistem melalui perancangan, pembongkaran, dan operasi berulang.
Pergeseran paradigma daripada "estetika hadapan" kepada "kejuruteraan sistem" ini pernah dianggap sebagai kawasan monopoli gergasi sumber tertutup. Sehingga saya menguji GLM-5, saya menyedari bahawa "era arkitek" komuniti sumber terbuka telah bermula lebih awal.
01
Daripada "Hadapan" kepada "Kejuruteraan Sistem"
Sebelum ini, apabila bercakap tentang Pengekodan AI, kebanyakan orang akan memikirkan naratif yang biasa—satu ayat menjana halaman web, permainan kecil dalam satu minit, kesan dinamik yang menarik dalam sepuluh saat. Mereka menekankan "keseronokan visual": butang bergerak, halaman cantik, kesan khas yang kaya.
Tetapi mereka yang benar-benar memasuki tapak kejuruteraan tahu bahawa menjana Demo tidak bermakna dapat menyokong sistem.
Kesukaran tugas yang kompleks tidak terletak pada "menulis kod", tetapi pada cara membahagikan modul, cara mengurus keadaan, cara menyokong pengecualian, cara mengoptimumkan prestasi, dan sama ada ia masih boleh mengekalkan kestabilan struktur apabila sistem mula menjadi kompleks.
Inilah sebabnya kami memilih tugas yang kompleks sebagai objek ujian sebenar.
Kedudukan GLM-5 berbeza daripada banyak produk pesaing.
Jika kebanyakan model lebih seperti "hadapan yang sangat baik"—mahir dalam menjana antara muka interaktif dan kesan visual dengan cepat, maka GLM-5 lebih cenderung kepada "peranan kejuruteraan sistem". Ia menekankan kerjasama berbilang modul, tugas rantaian panjang, dan kestabilan struktur yang boleh dijalankan dalam persekitaran pengeluaran.
Untuk mengesahkan perkara ini, kami mereka dua kajian kes ujian sebenar dengan dimensi yang sama sekali berbeza.
Ujian pertama ialah tugas yang kelihatan mudah tetapi sangat sistematik—berdasarkan penyemak imbas dan kamera, merealisasikan permainan interaktif bertema Tahun Baru Cina "AI visual mengawal bunga api dari udara".
Dalam video ujian sebenar, dapat dilihat bahawa pengguna berdiri di hadapan kamera dan mengawal arah dan irama pelancaran bunga api melalui gerak isyarat; bunga api mekar di udara, disertai dengan kesan zarah dan maklum balas kesan cahaya dinamik, dan interaksi keseluruhan adalah lancar dan semula jadi.
Tetapi ini bukan projek kesan dinamik hadapan yang mudah. Ia mengandungi sekurang-kurangnya modul teras berikut: pengecaman gerak isyarat dan pemprosesan input visual; pemetaan koordinat gerak isyarat kepada logik pelancaran; sistem zarah bunga api dan kesan mekar; pemaparan masa nyata dan kawalan kadar bingkai; keserasian penyemak imbas dan pengendalian pengecualian kebenaran kamera; pengurusan keadaan interaksi dan mekanisme maklum balas pengguna
Boleh dikatakan bahawa ia adalah sistem interaktif kecil dengan struktur yang lengkap dan pengalaman yang lancar. Daripada proses ujian sebenar, GLM-5 tidak terus memasuki pengekodan, tetapi mula-mula merancang seni bina keseluruhan: cara memisahkan modul input visual, lapisan logik kawalan, lapisan pemaparan, dan lapisan kesan khas; cara menghantar aliran data; bahagian mana yang mungkin menjadi kesesakan prestasi.
Kemudian, ia melaksanakan logik lapisan demi lapisan, bermula dengan pemprosesan data pengecaman gerak isyarat, kepada pengiraan trajektori pelancaran, dan kemudian kepada penalaan parameter kesan letupan zarah.
Apabila pemaparan tersekat, ia secara aktif mencadangkan mengurangkan bilangan zarah dan mengoptimumkan struktur gelung; apabila pengecaman gerak isyarat salah menilai, ia melaraskan ambang dan strategi penapisan.
Kesan yang dibentangkan dalam video ialah "interaksi yang kelihatan sangat semula jadi". Tetapi apa yang ditunjukkan di sebalik tabir ialah rantaian kejuruteraan yang lengkap: perancangan → penulisan → penyahpepijatan → pengoptimuman prestasi → pembetulan interaksi.
Kod yang dijana akhirnya boleh dijalankan secara langsung, interaksi adalah stabil, kadar bingkai adalah lancar, dan keadaan luar biasa boleh dikendalikan. Lebih penting lagi, cara kerjanya membentangkan pemikiran sistem yang jelas: sempadan modul adalah jelas, lapisan logik adalah munasabah, dan bukannya menimbun semua fungsi dalam satu fail.
Ujian kes kedua ialah keupayaan sistem struktur. Senario ini boleh dikatakan sebagai rutin kerja media—mengimport stenografi temu bual, meringkaskan kandungan dan mengeluarkan sudut dan idea topik.
Dalam ujian sebenar, dapat dilihat bahawa proses operasi adalah sangat mudah: Saya menampal kandungan stenografi temu bual dari beberapa waktu lalu, model mula menganalisis, dan kemudian mengeluarkan ringkasan kandungan dan sudut topik. Daripada hasilnya, sudut topik yang dijana masih sangat boleh dikendalikan.
Berbanding dengan sistem interaksi visual, penyusunan rakaman bunyi kelihatan mudah, tetapi sebenarnya ia menguji "keupayaan abstraksi struktur" model. Rakaman bunyi temu bual sebenar selalunya sangat tidak berstruktur: pandangan melompat, maklumat berulang, dan garis utama dan garis sampingan saling berkait. Jadi dalam kes ini, keupayaan yang ditunjukkan oleh GLM-5 adalah pada peringkat sistem.
Pertama, keupayaan pengecaman tema dan pengekstrakan garis utama. Model tidak menjana abstrak mengikut susunan teks asal, tetapi mula-mula menilai apakah isu teras, dan kemudian menyusun semula kandungan di sekitar isu ini. Ini bermakna ia telah menyelesaikan imbasan dalaman, mengenal pasti maklumat mana yang tergolong dalam garis utama dan mana yang tergolong dalam tambahan atau bunyi. Keupayaan ini pada dasarnya adalah keupayaan perancangan, iaitu, mewujudkan rangka kerja struktur abstrak sebelum mengeluarkan.
Kedua, keupayaan penyusunan semula modular. Ia akan mengkategorikan pandangan yang berkaitan yang tersebar di perenggan yang berbeza ke dalam modul yang sama. Keupayaan integrasi rentas perenggan ini menunjukkan bahawa model mempunyai konsistensi global apabila memproses teks yang panjang.
Ketiga, keupayaan untuk melaraskan susunan logik secara aktif. Garis besar yang dikeluarkan sebenarnya selalunya berbeza daripada susunan rakaman asal. Dapat dilihat bahawa GLM-5 sedang menyusun semula lapisan mengikut hubungan sebab akibat atau logik hujah. Ini mencerminkan pertimbangan "logik diutamakan daripada susunan input asal". Mod "struktur dahulu, keluaran kemudian" ini adalah teras pemikiran kejuruteraan sistem.
Kedua-dua kes ini, satu ialah sistem interaksi visual masa nyata, dan satu lagi ialah sistem pemprosesan struktur maklumat media, kelihatan sama sekali berbeza. Tetapi apa yang mereka sahkan adalah perkara yang sama—GLM-5 mempunyai keupayaan gelung tertutup tugas yang lengkap: perancangan → pelaksanaan → penyahpepijatan → pengoptimuman.
Dalam permainan bunga api, ini ditunjukkan dalam lapisan modul, pengoptimuman prestasi dan pengendalian pengecualian; dalam pemproses rakaman bunyi, ini ditunjukkan dalam pertimbangan tema, pembongkaran struktur dan penyusunan semula logik. Titik persamaan mereka ialah model tidak kekal pada "menjana hasil", tetapi mengekalkan struktur yang boleh berkembang secara mampan.
Saya terus mencuba tugas yang agak kompleks, "membina kernel sistem pengendalian yang minimalis". Dalam ujian sebenar ini. Apa yang benar-benar patut diberi perhatian bukanlah kod dalam video yang akhirnya berjalan, tetapi cara GLM-5 bertindak sepanjang proses.
Ia tidak serta-merta memasuki keadaan penjanaan apabila menerima tugas, tetapi mula-mula menjelaskan sempadan tugas, membahagikan modul secara aktif, merancang struktur sistem, dan kemudian memasuki peringkat pelaksanaan. Laluan "struktur dahulu" ini pada dasarnya adalah pemikiran kejuruteraan yang telah disebutkan sebelum ini—tentukan dahulu cara sistem dibentuk, dan kemudian bincangkan butiran pelaksanaan khusus, dan bukannya menulis dan menyusun.
Dalam kitaran berbilang pusingan penulisan, operasi, ralat dan pembetulan, GLM-5 juga tidak mengalami keruntuhan struktur. Setiap pengubahsuaian dijalankan di sekitar seni bina yang ditetapkan, dan bukannya menumbangkan dan memulakan semula atau menampal tampalan tempatan. Ini menunjukkan bahawa ia mengekalkan model sistem yang lengkap secara dalaman, dan dapat mengekalkan konsistensi dalam tugas rantaian panjang. Banyak model terdedah kepada percanggahan selepas konteks dipanjangkan, dan prestasi dalam video mencerminkan keupayaannya untuk terus mengingati struktur keseluruhan.
Juga cara ia mengendalikan ralat. Apabila ralat berlaku, ia tidak kekal pada tekaan permukaan "mungkin masalah dengan baris kod tertentu", tetapi mula-mula menilai jenis ralat, membezakan masalah logik, masalah persekitaran atau konflik pergantungan, dan kemudian merancang laluan penyiasatan. Ini ialah Debug peringkat strategi, yang bertujuan untuk membaiki laluan masalah.
Jika digabungkan dengan panggilan alat, keupayaan ini akan menjadi lebih jelas. Ia bukan sahaja memberikan cadangan arahan, tetapi juga menggabungkan penjadualan aktif pelaksanaan terminal, menganalisis log, membaiki persekitaran, dan kemudian terus memajukan tugas. Tingkah laku ini sudah agak menghampiri promosi kejuruteraan gaya "pemanduan automatik". Jika matlamat tidak dicapai, ia terus berulang.
Merancang dahulu dan kemudian melaksanakan, mengekalkan kestabilan struktur dalam rantaian panjang, menyiasat masalah dengan cara yang strategik, dan terus memajukan di sekitar matlamat—gabungan empat keupayaan teras yang diperlukan oleh kejuruteraan sistem membolehkan GLM-5 mula menunjukkan corak tingkah laku yang menghampiri cara jurutera bekerja.
Mengapa GLM-5 Boleh Menerima Tongkat Estafet "Arkitek"?
Jika bahagian pertama ujian sebenar membuktikan bahawa GLM-5 "boleh melakukan kerja yang kompleks", maka soalan seterusnya ialah: Bagaimana ia boleh? Jawapannya terletak pada keseluruhan set "corak tingkah laku peringkat kejuruteraan" yang tersembunyi di sebalik output.
Satu perkara penting ialah GLM-5 jelas memperkenalkan mekanisme pemeriksaan kendiri rantaian pemikiran yang serupa dengan Claude Opus 4.6.
Dalam penggunaan sebenar, anda boleh merasakan bahawa ia tidak serta-merta mula "mengisi kod" apabila menerima tugas, tetapi akan menjalankan berbilang pusingan penaakulan logik di latar belakang: meramalkan hubungan gandingan antara modul, mengelakkan laluan gelung mati secara aktif, dan menemui konflik sumber dan masalah keadaan sempadan terlebih dahulu. Perubahan langsung yang dibawa oleh tingkah laku ini ialah—untuk memastikan skim itu boleh dipertahankan dari segi kejuruteraan, ia sanggup memperlahankan dan memikirkan masalah itu secara menyeluruh.
Dalam tugas yang kompleks, GLM-5 akan terlebih dahulu memberikan pembongkaran modul yang jelas: modul sub mana yang terdiri daripada sistem, apakah input dan output setiap modul, bahagian mana yang boleh dipromosikan secara selari, dan mana yang mesti diselesaikan secara bersiri. Kemudian atasi mereka satu demi satu, dan bukannya menulis dan berfikir. Ini menjadikan cara kerjanya lebih seperti jurutera sebenar: lukis gambar seni bina dahulu, dan kemudian tulis butiran pelaksanaan. Jelas sekali, ia mempunyai "ketabahan untuk tidak berhenti sehingga masalah itu diselesaikan dengan bersih", dan bukannya tergesa-gesa menamatkan sebahagian yang kelihatan betul.
Perbezaan ini amat jelas dalam perbandingan dengan model Pengekodan tradisional. Pada masa lalu, banyak model akan dengan cepat tergelincir ke dalam mod yang biasa apabila menghadapi ralat: meminta maaf, mengulangi maklumat ralat, dan memberikan cadangan pembaikan yang tidak disahkan; jika ia gagal lagi, ia akan mula mengeluarkan jawapan anggaran secara kitaran. Cara GLM-5 mengendalikan adalah lebih dekat dengan arkitek lama. Dalam ujian sebenar, apabila projek tidak dapat dijalankan kerana masalah pergantungan persekitaran, ia tidak kekal pada maklumat ralat permukaan, tetapi secara aktif menganalisis pokok pergantungan (Pokok Pergantungan), menilai sumber konflik, dan seterusnya mengarahkan OpenClaw untuk membaiki persekitaran.
Keseluruhan proses lebih seperti penggunaan gaya "pemanduan automatik": model tidak bertindak balas secara pasif, tetapi terus membaca log, membetulkan laluan dan mengesahkan hasil.
Satu lagi keupayaan yang sering diabaikan tetapi sangat penting dalam kejuruteraan sistem ialah integriti konteks.
Tetingkap Token peringkat juta GLM-5 membolehkannya memahami struktur kod, pengubahsuaian sejarah, fail konfigurasi dan log operasi keseluruhan projek dalam konteks yang sama. Ini bermakna ia sudah dapat menilai dari perspektif global kesan tindak balas berantai yang akan dihasilkan oleh pengubahsuaian pada modul mana. Dalam tugas rantaian panjang, keupayaan ini secara langsung menentukan sama ada model itu "pintar tetapi rabun", atau "mantap dan terkawal".
Secara keseluruhannya, GLM-5 benar-benar menerima peranan "arkitek", terutamanya kerana ia mula memikirkan masalah seperti arkitek: merancang dahulu, kemudian melaksanakan; terus mengesahkan dan terus membetulkan; memberi perhatian kepada keseluruhan sistem, dan bukannya kejayaan titik tunggal.
Ini juga merupakan sebab asas mengapa ia dapat menyelesaikan tugas ujian sebenar peringkat sistem dalam bahagian pertama.
03
Opus dalam Dunia Sumber Terbuka?
Jika dilihat dalam ekosistem model besar 2026, nilai GLM-5 lebih terletak pada hakikat bahawa ia memecahkan perkara yang hampir diterima secara lalai sebelum ini: kecerdasan peringkat sistem nampaknya hanya boleh wujud dalam model sumber tertutup.
Sebelum ini, Claude Opus 4.6 dan GPT-5.3 sememangnya telah menjalankan laluan "Pengkodan Agentik"—model tidak lagi mengejar maklum balas segera, tetapi menyelesaikan tugas kejuruteraan yang benar-benar kompleks melalui perancangan, pembongkaran dan operasi berulang. Tetapi kosnya juga sangat tinggi: penggunaan Token tugas berintensiti tinggi sangat tinggi, dan percubaan peringkat sistem yang lengkap selalunya bermakna kos panggilan yang besar.
GLM-5 menyediakan penyelesaian yang berbeza di sini. Sebagai model sumber terbuka, ia membawa "AI peringkat arkitek sistem" daripada awan dan bil kembali ke persekitaran pembangun sendiri. Anda boleh menggunakan ia secara tempatan dan membiarkannya meluangkan masa untuk mengunyah kerja kotor, kerja keras dan kerja besar: melaraskan log, menyemak pergantungan, mengubah kod lama dan menambah keadaan sempadan.
Ini boleh dilihat sebagai perubahan struktur kos efektif—kecerdasan peringkat arkitek tidak lagi menjadi keistimewaan beberapa pasukan.
Jika anda memahami perbezaan ini dengan metafora profesional, ia akan menjadi lebih intuitif. Model seperti Kimi 2.5 lebih seperti jurutera hadapan yang sangat baik dengan estetika dalam talian dan rasa interaksi yang kuat, mahir dalam penjanaan Satu pukulan, persembahan visual dan maklum balas pantas; manakala gaya GLM-5 jelas berbeza, ia lebih seperti arkitek sistem kanan yang mematuhi asas dan menekankan logik: memberi perhatian kepada hubungan modul, laluan pengecualian, kebolehselenggaraan dan operasi stabil jangka panjang.
Di sebalik ini, sebenarnya, ialah kemajuan kerjaya yang jelas dalam pengaturcaraan AI—daripada mengejar Vibe Coding yang "kelihatan sangat hebat" kepada menekankan keteguhan dan disiplin kejuruteraan.
Lebih penting lagi, kemunculan GLM-5 menjadikan konsep syarikat seorang lebih mudah dilaksanakan.Apabila seorang pembangun boleh memiliki rakan kongsi AI tempatan yang memahami reka bentuk sistem, boleh beroperasi untuk jangka masa panjang, dan boleh membetulkan diri sendiri, banyak kerja kejuruteraan yang asalnya memerlukan saiz pasukan untuk diselesaikan, mula dimampatkan ke dalam skop yang boleh dikawal oleh individu. Seterusnya, GLM-5 berpotensi menjadi "rakan kongsi digital" yang bertanggungjawab untuk pelaksanaan kejuruteraan teras dalam syarikat seorang diri.





