Xiaohongshu, SWE-Bench Mobile'ı Yayınladı: Yapay Zeka Ajanı Yüz Milyonlarca Kullanıcılı Uygulama Kod Tabanıyla Karşılaştığında, En Yüksek Başarı Oranı Sadece %12 mi?

2/15/2026
2 min read

Xiaohongshu, SWE-Bench Mobile'ı Yayınladı: Yapay Zeka Ajanı Yüz Milyonlarca Kullanıcılı Uygulama Kod Tabanıyla Karşılaştığında, En Yüksek Başarı Oranı Sadece %12 mi?

SWE-Bench Mobile

Xiaohongshu ekibi, yapay zeka ajanlarının gerçek mobil uygulama kod tabanlarındaki performansını değerlendirmek için özel olarak tasarlanmış yeni bir kıyaslama testi olan SWE-Bench Mobile'ı yayınladı. Sonuçlar düşündürücü: En iyi yapay zeka ajanları bile, yüz milyonlarca kullanıcılı bir uygulamanın kod tabanıyla karşılaştığında, en yüksek başarı oranı sadece %12.

Test Senaryosu

SWE-Bench Mobile Nedir?

Kıyaslama Tanıtımı

SWE-Bench Mobile, mobil uygulama geliştirme için bir kod düzeltme kıyaslama testidir. Gerçek mobil uygulama hata düzeltme görevlerini içerir ve yapay zeka ajanının şunları yapabilmesini gerektirir:

  • Karmaşık mobil uygulama kod yapısını anlamak
  • Sorunların kök nedenlerini belirlemek
  • Doğru düzeltme kodunu oluşturmak
  • Düzeltmenin yeni sorunlara yol açmadığından emin olmak

Test Sonuçları

Test Sonuçları

Testlerde, çeşitli ana akım yapay zeka ajanlarının performansı aşağıdaki gibidir:

  • En İyi Performans: %12 başarı oranı
  • Ortalama Seviye: %5-8 başarı oranı
  • Bazı Modeller: %0'a yakın başarı oranı

Bu sonuç, geleneksel SWE-Bench'teki performanstan çok daha düşük.

Neden Bu Kadar Zor?

Zorluk Analizi

Mobil uygulama kod tabanının özellikleri ek zorluklar getiriyor:

  • Çoklu Uç Adaptasyonu: Hem iOS hem de Android platformları dikkate alınmalıdır.
  • Karmaşık Bağımlılıklar: Mobil uygulamaların modülleri arasındaki bağlantı yüksek.
  • Performans Kısıtlamaları: Mobil cihazların kaynakları sınırlıdır, kod optimizasyonu gereksinimleri yüksektir.
  • Karmaşık UI Mantığı: Arayüz etkileşim kodunun statik analizi zordur.

Geleneksel Kıyaslamalarla Karşılaştırma

Karşılaştırma Analizi

Geleneksel SWE-Bench ile karşılaştırıldığında, Mobile sürümünün zorluğu önemli ölçüde artmıştır:

  • Kod tabanı boyutu daha büyük
  • İş mantığı daha karmaşık
  • Test senaryolarını geçmek daha zor
  • Bağlam penceresi gereksinimleri daha yüksek

Sektör Anlamı

Sektör Anlamı

Bu kıyaslama testi, yapay zeka ajanlarının gerçek endüstriyel senaryolardaki sınırlamalarını ortaya koyuyor. Yapay zeka kod oluşturma konusunda hızla ilerleme kaydetse de, büyük ve karmaşık gerçek projeleri ele alırken hala gidilecek uzun bir yol var.

Gelecek Beklentileri

Gelecek Beklentileri

SWE-Bench Mobile'ın yayınlanması, yapay zeka programlama araçlarının geliştirilmesi için önemli bir ölçüt sağlıyor. Bize şunu hatırlatıyor:

  • Yapay zeka destekli programlama hala insan gözetimi gerektiriyor
  • Karmaşık projeler daha akıllı bağlam anlayışı gerektiriyor
  • Model yetenekleri için hala büyük bir gelişme alanı var

Kaynak Bağlantıları

Kaynaklar

Published in Technology

You Might Also Like