GLM-5:Apabila Model Besar Belajar 'Menulis Kod Sendiri', Peralihan dari Vibe Coding ke Kejuruteraan Agentic
GLM-5:Apabila Model Besar Belajar 'Menulis Kod Sendiri', Peralihan dari Vibe Coding ke Kejuruteraan Agentic
❝
🎯 Ringkasan dalam satu ayat:Zhiyu AI bekerjasama dengan Universiti Tsinghua untuk melancarkan model GLM-5 dengan 744B parameter, melalui DeepSeek Sparse Attention (DSA) untuk mengurangkan beban pengiraan perhatian, pembelajaran penguatan sepenuhnya tidak segerak (Async RL) untuk meningkatkan kecekapan latihan tugas panjang, serta proses latihan selepas pelbagai peringkat, membolehkan model besar beralih dari 'Vibe Coding' kepada 'Kejuruteraan Agentic' yang mampu menyelesaikan projek kejuruteraan sebenar secara autonomi.
Mengapa Kertas Kerja Ini Diperlukan?
Andrej Karpathy pada awal 2025 mengemukakan satu konsep menarik — Vibe Coding, yang bermaksud anda hanya perlu menerangkan keperluan dalam bahasa semula jadi, dan 'mengikut rasa' membiarkan AI menulis kod. Ini sememangnya merupakan pengalaman utama dalam pengaturcaraan AI masa kini: anda menyatakan satu ayat, model membantu anda menghasilkan satu kod, sama ada ia berkesan atau tidak bergantung kepada nasib.
Tetapi masalahnya adalah: Kejuruteraan perisian sebenar jauh lebih kompleks daripada 'menulis kod' sahaja. Seorang jurutera sebenar perlu memahami seni bina projek, menyelesaikan ralat, mengurus kebergantungan, dan menangani kerjasama antara modul — semua ini bukan sesuatu yang boleh diselesaikan dengan 'satu prompt menghasilkan satu kod'. Kertas kerja GLM-5 bertujuan untuk menjadikan model dari 'pembantu yang menulis kod untuk anda' kepada 'jurutera yang mampu menyelesaikan keseluruhan projek secara autonomi'.
Ini bukanlah satu matlamat kecil. Untuk mencapainya, pasukan Zhiyu telah melakukan banyak inovasi dalam seni bina model, proses latihan, dan algoritma pembelajaran penguatan. Penjelasan ini akan membawa anda untuk menguraikan butiran teknikal ini.
Sumbangan Utama: Tiga Poin Utama
Sebelum menyelami butiran, mari kita jelas tentang tiga sumbangan utama GLM-5:
Sumbangan Masalah yang Diselesaikan Pemikiran Utama DSA Sparse Attention 128K konteks panjang beban pengiraan yang meletup memilih token penting secara dinamik, melangkau yang tidak berkaitan, menjimatkan 1.5-2 kali kuasa pengiraan Rangka Kerja Pembelajaran Penguatan Tidak Segerak dalam latihan RL tugas panjang GPU banyak tidak digunakan menghasilkan dan melatih sepenuhnya terasing, paralel dalam aliran kerja Proses Latihan Selepas Pelbagai Peringkat sukar untuk mengimbangi pelbagai keupayaan seperti inferens, pengkodan, dan agen SFT → inferens RL → agen RL → RL umum, menambah keupayaan secara berperingkat
Seni Bina Model: Melakukan 'Pengurangan' pada Kerangka MoE
Konfigurasi Asas
GLM-5 menggunakan seni bina Mixture-of-Experts (MoE), dengan jumlah parameter 744B, tetapi setiap inferens hanya mengaktifkan kira-kira 40B parameter. Reka bentuk 'besar tetapi jarang' ini telah menjadi konsensus industri — DeepSeek-V3/R1, Qwen3 telah mengikuti laluan yang serupa.
Bagaimana DSA Berfungsi?
Idea utama DSA boleh difahami dengan satu kiasan: bayangkan anda sedang mencari maklumat di perpustakaan. Perhatian standard adalah seperti membalikkan setiap buku di seluruh perpustakaan dan kemudian memutuskan mana yang berguna. Manakala DSA lebih seperti seorang pustakawan berpengalaman — ia terlebih dahulu menggunakan Lightning Index untuk mengimbas tajuk rak dengan cepat, mengenal pasti beberapa kawasan yang mungkin berkaitan, dan kemudian hanya membaca dengan teliti petikan tertentu dalam kawasan tersebut.
Proses Latihan: 'Menaikkan Level' dalam Empat Langkah
Proses latihan GLM-5 adalah bahagian utama kertas kerja ini, dibahagikan kepada dua peringkat besar: Latihan Awal dan Latihan Selepas.
Peringkat Latihan Awal
- Skala Data: 27T token, nisbah campuran data termasuk laman web, kod, kertas akademik, buku, dan lain-lain
- Pengembangan Konteks: melalui latihan pertengahan, konteks diperluas dari 4K secara berperingkat kepada 200K, menggunakan penyesuaian frekuensi RoPE
- Peringkat Annealing: pada akhir latihan awal, menggunakan data berkualiti lebih tinggi untuk 'penyempurnaan'
Empat Langkah Latihan Selepas
Ini adalah bahagian paling unik GLM-5. GLM-5 melakukan empat pusingan:
- Penyelarasan Halus Terawasi (SFT) menggunakan data arahan berkualiti tinggi untuk penyelarasan halus.
- Pembelajaran Penguatan Inferens (Reasoning RL) melakukan latihan RL dalam tugas inferens matematik dan kod.
- Pembelajaran Penguatan Agen (Agentic RL), ini adalah inovasi utama.
- Pembelajaran Penguatan Umum (General RL), melakukan RL dalam tugas umum yang lebih luas.
Pembelajaran Penguatan Tidak Segerak: Membuat GPU Tidak Lagi 'Bersantai'
Latihan RL tradisional adalah segerak: mengumpul satu kumpulan data → mengira ganjaran → mengemas kini model → mengumpul semula. Ini tidak menjadi masalah dalam situasi masa tugas yang pendek, tetapi tugas agen sering memerlukan interaksi berpuluh-puluh langkah.
Penafsiran Mendalam Hasil Eksperimen
Perbandingan Penanda Aras Utama
Penanda Aras GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9
Kesimpulan
Kertas kerja GLM-5 ini mengandungi banyak maklumat. Tanpa membincangkan angka tertentu, mesej utama yang disampaikan adalah: Medan pertempuran seterusnya untuk model besar adalah 'bekerja' dan bukan hanya 'menjawab soalan'.
Dari segi persaingan, GLM-5 membuktikan daya saing pasukan AI China dalam penyelidikan model besar di barisan hadapan.
Maklumat Kertas Kerja
- Tajuk: GLM-5: dari Vibe Coding ke Kejuruteraan Agentic
- Institusi: Zhiyu AI & Universiti Tsinghua
- Pautan: https://arxiv.org/abs/2602.15763

