GPT'nin Maliyet Duvarı
Geçtiğimiz hafta, X'teki GPT tartışmalarında yeni bir odak noktası ortaya çıktı: Yetenek değil, maliyet.
ARC-AGI: Zekanın Sınırları
Şu anda en ileri modellerin ARC-AGI-2'deki performansı:
| Model | ARC-AGI-2 Skoru |
|---|---|
| GPT-5.2 Pro | ~%54 |
| GPT-5.2 Refine | ~%73 |
| İnsan | %100 |
%54 ile %73 arasındaki fark bir zeka sorunu değil, bir "rafine etme" sorunudur - modelin kendi cevaplarını tekrar tekrar kontrol etmesini sağlamak. Bu daha fazla hesaplama gerektirir, bu da daha yüksek maliyet anlamına gelir.
Agent'ların Gerçek Maliyeti
7/24 kurumsal düzeyde Agent'ların (günde 20 milyon girdi + 20 milyon çıktı token'ı) yıllık maliyeti:
| Model | Yıllık Maliyet |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro, GPT-5.2 Standard'dan 12 kat daha pahalı. Bu bir fiyatlandırma stratejisi sorunu değil, bir maliyet yapısı sorunudur.
"100 AI agent'ı dağıtmadan önce, hesabı yapın." — @waseem_s
Yeni Turing Testi
Basit bir soru yeni bir zeka testi haline geliyor:
"Araba yıkama dükkanı evimden 40 metre uzakta. Arabamı yıkatmak istiyorum. Yürüyerek mi gitmeliyim, yoksa arabayla mı?"
Geçen Modeller: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Başarısız Olan Modeller: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Bu test neden anlamlı? Çünkü "bilgi alma" yerine "sağduyu muhakemesini" test ediyor. 40 metre yürüme mesafesidir. Araba kirlendiğinde yıkanması gerekir. Ama kirli bir arabayı 40 metre yıkamaya götürmezsiniz - eğer sağduyunuz yoksa.
Tarih Tekrarlanmaz, Ama Kafiyeli Olur
"Uzman sistemler 1970'lerde doğdu, 1980'lerde gelişti ve yaygın olarak AI'nın geleceği olarak kabul edildi." — @ChombaBupe
GPT modelleri 2018'de doğdu, 2020'lerde gelişti ve yaygın olarak AI'nın geleceği olarak kabul ediliyor.
Uzman sistemlerin başarısızlığı yeterince akıllı olmamalarından değil, bakım maliyetlerinin çok yüksek ve ölçeklenebilirliklerinin çok kötü olmasından kaynaklanıyordu. Bilgi tabanı manuel olarak bakıma ihtiyaç duyduğunda, ölçek düşmandır.
GPT, aynalı bir sorunla karşı karşıya: Modeller akıllı, ancak akıl yürütme maliyeti çok yüksek. Her istek çok fazla hesaplama gerektirdiğinde, ölçek yine düşmandır.
Sonraki Adım
Bu hafta birden fazla yeni modelin piyasaya sürülmesi bekleniyor: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Rekabet "kim daha akıllı"dan "kim daha ucuz"a doğru kayıyor. Bu kullanıcılar için iyi bir haber. OpenAI için mi? Belki değil.





