GLM-5: Ketika Model Besar Belajar 'Menulis Kode Sendiri', Peralihan dari Vibe Coding ke Agentic Engineering
GLM-5: Ketika Model Besar Belajar 'Menulis Kode Sendiri', Peralihan dari Vibe Coding ke Agentic Engineering
❝
🎯 Ringkasan dalam Satu Kalimat: Zhizhu AI bekerja sama dengan Universitas Tsinghua meluncurkan model GLM-5 dengan 744B parameter, melalui DeepSeek Sparse Attention (DSA) untuk mengompresi beban komputasi perhatian, pembelajaran penguatan asinkron (Async RL) untuk meningkatkan efisiensi pelatihan tugas panjang, serta proses pelatihan pasca multi-tahap, memungkinkan model besar bertransformasi dari 'Vibe Coding' menjadi 'Insinyur Agens' yang dapat menyelesaikan proyek rekayasa nyata secara mandiri.
Mengapa Makalah Ini Diperlukan?
Andrej Karpathy mengemukakan konsep menarik pada awal 2025—Vibe Coding, yang berarti Anda hanya perlu mendeskripsikan kebutuhan dengan bahasa alami, dan 'merasa' untuk membiarkan AI menulis kode. Ini memang merupakan pengalaman utama dalam pemrograman AI saat ini: Anda mengucapkan satu kalimat, model membantu Anda menghasilkan sepotong kode, seberapa baik hasilnya tergantung pada keberuntungan.
Namun, masalahnya adalah: Rekayasa perangkat lunak yang nyata jauh lebih kompleks daripada sekadar 'menulis kode'. Seorang insinyur sejati perlu memahami arsitektur proyek, melakukan debugging, mengelola ketergantungan, dan menangani kolaborasi antar modul—semua ini tidak dapat diselesaikan hanya dengan 'satu prompt menghasilkan satu potong kode'. Makalah GLM-5 bertujuan untuk mengubah model dari 'asisten yang membantu Anda menulis kode' menjadi 'insinyur yang dapat menyelesaikan seluruh proyek secara mandiri'.
Ini bukanlah tujuan kecil. Untuk mencapainya, tim Zhizhu melakukan banyak inovasi dalam arsitektur model, proses pelatihan, dan algoritma pembelajaran penguatan. Penjelasan ini akan membahas detail teknis tersebut.
Kontribusi Utama: Tiga Poin Kunci
Sebelum menyelami detail, mari kita klarifikasi tiga kontribusi inti dari GLM-5:
| Kontribusi | Masalah yang Diselesaikan | Inti Pemikiran | |------------|-------------------------|----------------| | DSA Sparse Attention | Beban komputasi untuk konteks panjang 128K meledak | Memilih token penting secara dinamis, melewatkan yang tidak relevan, menghemat 1.5-2 kali daya komputasi | | Kerangka Pembelajaran Penguatan Asinkron | Banyak GPU tidak terpakai dalam pelatihan RL tugas panjang | Menghasilkan dan melatih sepenuhnya terpisah, paralel dalam alur kerja | | Proses Pelatihan Pasca Multi-Tahap | Sulit untuk mengakomodasi banyak kemampuan seperti inferensi, pengkodean, dan agen | SFT → Inferensi RL → Agen RL → RL Umum, kemampuan ditambahkan secara bertahap |
Arsitektur Model: Melakukan 'Pengurangan' pada Kerangka MoE
Konfigurasi Dasar
GLM-5 menggunakan arsitektur Mixture-of-Experts (MoE), dengan total parameter 744B, tetapi hanya mengaktifkan sekitar 40B parameter pada setiap inferensi. Desain 'besar dan jarang' ini telah menjadi konsensus industri—DeepSeek-V3/R1, Qwen3 juga mengikuti jalur serupa.
Bagaimana DSA Bekerja?
Inti pemikiran DSA dapat dipahami dengan sebuah perumpamaan: bayangkan Anda sedang mencari informasi di perpustakaan. Perhatian standar seperti membolak-balik setiap buku di seluruh perpustakaan, lalu memutuskan mana yang berguna. Sedangkan DSA lebih mirip dengan seorang pustakawan berpengalaman—ia terlebih dahulu menggunakan Lightning Index untuk dengan cepat memindai judul rak buku, mengunci beberapa area yang mungkin relevan, lalu hanya membaca dengan seksama paragraf-paragraf spesifik di area tersebut.
Proses Pelatihan: Empat Tahap 'Meningkatkan Level'
Proses pelatihan GLM-5 adalah bagian utama dari makalah ini, dibagi menjadi dua tahap besar: Pra-Pelatihan dan Pasca-Pelatihan.
Tahap Pra-Pelatihan
- Skala Data: 27T token, proporsi campuran data termasuk halaman web, kode, makalah akademis, buku, dll.
- Perluasan Konteks: Melalui pelatihan menengah, konteks diperluas dari 4K menjadi 200K secara bertahap, menggunakan penyesuaian frekuensi RoPE.
- Tahap Annealing: Di akhir pra-pelatihan, menggunakan data berkualitas lebih tinggi untuk 'penyempurnaan'.
Empat Langkah Pasca-Pelatihan
Ini adalah bagian paling khas dari GLM-5. GLM-5 melakukan empat putaran:
- Supervised Fine-Tuning (SFT) menggunakan data instruksi berkualitas tinggi untuk fine-tuning.
- Reasoning Reinforcement Learning (Reasoning RL) melakukan pelatihan RL pada tugas penalaran matematika dan kode.
- Agentic Reinforcement Learning (Agentic RL), ini adalah inovasi kunci.
- General Reinforcement Learning (General RL), melakukan RL pada tugas umum yang lebih luas.
Pembelajaran Penguatan Asinkron: Membuat GPU Tidak Lagi 'Boros Waktu'
Pelatihan RL tradisional adalah sinkron: mengumpulkan satu batch data → menghitung penghargaan → memperbarui model → mengumpulkan lagi. Ini tidak menjadi masalah dalam kasus waktu tugas yang singkat, tetapi tugas agen sering memerlukan puluhan langkah interaksi.
Interpretasi Mendalam Hasil Eksperimen
Perbandingan Dasar Utama
| Dasar | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | |-------|--------|----------------|----------------|--------------|----------|----------| | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 | |
Kesimpulan
Makalah GLM-5 ini mengandung banyak informasi. Tanpa membahas angka spesifik, inti informasi yang disampaikan adalah: Medan pertempuran berikutnya untuk model besar adalah 'bekerja' dan bukan hanya 'menjawab pertanyaan'.
Dalam aspek kompetisi, GLM-5 membuktikan daya saing tim AI China dalam penelitian model besar di garis depan.
Informasi Makalah
- Judul: GLM-5: dari Vibe Coding ke Agentic Engineering
- Institusi: Zhizhu AI & Universitas Tsinghua
- Tautan: https://arxiv.org/abs/2602.15763

