GLM-5: Büyük Modellerin 'Kendi Kodunu Yazmayı' Öğrenmesi, Vibe Coding'den Agentic Engineering'e Geçiş
GLM-5: Büyük Modellerin 'Kendi Kodunu Yazmayı' Öğrenmesi, Vibe Coding'den Agentic Engineering'e Geçiş
❝
🎯 Bir cümleyle özet: Zhipu AI, Tsinghua Üniversitesi ile birlikte 744B parametreli GLM-5 modelini tanıttı. Bu model, DeepSeek Sparse Attention (DSA) ile dikkat hesaplama yükünü azaltmakta, tamamen asenkron pekiştirmeli öğrenme (Async RL) ile uzun görevlerin eğitim verimliliğini artırmakta ve çok aşamalı sonrası eğitim süreci ile büyük modellerin 'atmosfer kodlaması' (Vibe Coding) aşamasından bağımsız olarak gerçek mühendislik projelerini tamamlayabilen 'akıllı mühendis' (Agentic Engineering) aşamasına evrilmesini sağlamaktadır.
Neden bu makaleye ihtiyaç var?
Andrej Karpathy, 2025'in başlarında ilginç bir kavram ortaya attı - Vibe Coding, yani sadece doğal dil ile ihtiyaçları tanımlayıp, 'hissederek' AI'nın kod yazmasını sağlamak. Bu, mevcut AI programlama deneyiminin ana akımıdır: bir cümle söylüyorsunuz, model size bir kod parçası üretiyor, sonuç ne kadar iyi olursa olsun tamamen şansa bağlı.
Ancak sorun şu: Gerçek yazılım mühendisliği, 'kod yazmaktan' çok daha karmaşık. Gerçek bir mühendis, proje mimarisini anlamalı, hataları ayıklamalı, bağımlılıkları yönetmeli ve modüller arası işbirliğini sağlamalıdır - bunların hiçbiri 'bir prompt ile bir kod parçası' ile çözülemez. GLM-5'in bu makalede yapmak istediği şey, modeli 'kod yazmanıza yardımcı olan bir asistan' olmaktan çıkarıp 'tüm projeyi bağımsız bir şekilde tamamlayabilen bir mühendis' haline getirmektir.
Bu küçük bir hedef değil. Bunu başarmak için, Zhipu ekibi model mimarisi, eğitim süreci ve pekiştirmeli öğrenme algoritmalarında birçok yenilik gerçekleştirdi. Bu yorum, sizi bu teknik detayları çözmeye götürecek.
Temel katkı: Üç anahtar
Detaylara girmeden önce, GLM-5'in üç temel katkısını netleştirelim:
Katkı, çözümlediği problemin temel fikri DSA seyrek dikkati 128K uzun bağlamın hesaplama maliyetini patlatıyor, önemli token'ları dinamik olarak seçiyor, alakasız olanları atlıyor, %150-200 oranında hesaplama gücü tasarrufu sağlıyor. Asenkron pekiştirmeli öğrenme çerçevesi uzun görevlerde GPU'nun büyük ölçüde boş kalmasını sağlıyor, üretim ve eğitim tamamen ayrılıyor, boru hattı şeklinde paralel çalışıyor. Çok aşamalı sonrası eğitim süreci çıkarım, kodlama, akıllı ajan gibi çoklu yeteneklerin dengelenmesi zor. SFT → çıkarım RL → akıllı ajan RL → genel RL, yetenekleri kademeli olarak artırıyor.
Model mimarisi: MoE iskeleti üzerinde 'çıkarma' yapmak
Temel yapılandırma
GLM-5, Mixture-of-Experts (MoE) mimarisini kullanıyor, toplam parametre 744B, ancak her bir çıkarımda yaklaşık 40B parametre aktif hale geliyor. Bu 'büyük ve seyrek' tasarım, endüstri genelinde bir konsensüs haline geldi - DeepSeek-V3/R1, Qwen3 benzer bir yol izledi.
DSA tam olarak nasıl çalışıyor?
DSA'nın temel fikrini bir benzetme ile anlamak mümkün: Kendinizi bir kütüphanede bilgi ararken hayal edin. Standart dikkat, tüm kütüphanedeki her kitabı karıştırmak gibidir ve hangi kitapların faydalı olduğuna karar verir. DSA ise deneyimli bir kütüphaneci gibidir - önce Lightning Index ile raf başlıklarını hızlıca tarar, birkaç potansiyel ilgili alanı belirler ve sonra yalnızca bu alanlardaki belirli paragrafları dikkatlice okur.
Eğitim süreci: Dört aşamalı 'canavarı yenme' süreci
GLM-5'in eğitim süreci, bu makalenin en önemli kısmıdır ve ön eğitim ile sonrası eğitim olmak üzere iki ana aşamaya ayrılır.
Ön eğitim aşaması
- Veri ölçeği: 27T token, veri karışım oranı web sayfaları, kod, akademik makaleler, kitaplar vb. içerir.
- Bağlam genişletme: Ara eğitim ile bağlamı 4K'dan 200K'ya kademeli olarak genişletir, RoPE frekans ayarlaması kullanır.
- Aşamalı süreç: Ön eğitimin sonunda daha yüksek kaliteli verilerle 'ince ayar' yapılır.
Sonrası eğitim dört aşaması
Bu, GLM-5'in en belirgin kısmıdır. GLM-5, dört tur gerçekleştirdi:
- Gözetimli ince ayar (SFT) yüksek kaliteli talimat verileri ile ince ayar yapar.
- Çıkarım pekiştirmeli öğrenme (Reasoning RL) matematik ve kod çıkarım görevlerinde RL eğitimi yapar.
- Akıllı ajan pekiştirmeli öğrenme (Agentic RL), bu kritik yenilik.
- Genel pekiştirmeli öğrenme (General RL), daha geniş genel görevlerde RL eğitimi yapar.
Asenkron pekiştirmeli öğrenme: GPU'yu 'boşta bırakmamak'
Geleneksel RL eğitimi senkron: bir veri kümesi toplama → ödül hesaplama → modeli güncelleme → tekrar toplama. Bu, görev süreleri kısa olduğunda sorun değil, ancak akıllı ajan görevleri genellikle onlarca adım etkileşim gerektirir.
Deney sonuçlarının derin analizi
Ana kıyaslama karşılaştırması
Kıyaslama GLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9
Sonuç
GLM-5 bu makalenin bilgi yoğunluğu oldukça yüksek. Belirli sayılardan bağımsız olarak, ilettiği temel mesaj şudur: Büyük modellerin bir sonraki savaş alanı 'çalışmak' ve sadece 'soru cevaplamak' değil.
Rekabet açısından, GLM-5, Çin AI ekiplerinin büyük model ön araştırmalarındaki rekabet gücünü kanıtladı.
Makale bilgileri
- Başlık: GLM-5: Vibe Coding'den Agentic Engineering'e
- Kurum: Zhipu AI & Tsinghua Üniversitesi
- Bağlantı: https://arxiv.org/abs/2602.15763

