Xiaohongshu, SWE-Bench Mobile'ı Yayınladı: Yapay Zeka Ajanı Yüz Milyonlarca Kullanıcılı Uygulama Kod Tabanıyla Karşılaştığında, En Yüksek Başarı Oranı Sadece %12 mi?
Xiaohongshu, SWE-Bench Mobile'ı Yayınladı: Yapay Zeka Ajanı Yüz Milyonlarca Kullanıcılı Uygulama Kod Tabanıyla Karşılaştığında, En Yüksek Başarı Oranı Sadece %12 mi?

Xiaohongshu ekibi, yapay zeka ajanlarının gerçek mobil uygulama kod tabanlarındaki performansını değerlendirmek için özel olarak tasarlanmış yeni bir kıyaslama testi olan SWE-Bench Mobile'ı yayınladı. Sonuçlar düşündürücü: En iyi yapay zeka ajanları bile, yüz milyonlarca kullanıcılı bir uygulamanın kod tabanıyla karşılaştığında, en yüksek başarı oranı sadece %12.

SWE-Bench Mobile Nedir?

SWE-Bench Mobile, mobil uygulama geliştirme için bir kod düzeltme kıyaslama testidir. Gerçek mobil uygulama hata düzeltme görevlerini içerir ve yapay zeka ajanının şunları yapabilmesini gerektirir:
- Karmaşık mobil uygulama kod yapısını anlamak
- Sorunların kök nedenlerini belirlemek
- Doğru düzeltme kodunu oluşturmak
- Düzeltmenin yeni sorunlara yol açmadığından emin olmak
Test Sonuçları

Testlerde, çeşitli ana akım yapay zeka ajanlarının performansı aşağıdaki gibidir:
- En İyi Performans: %12 başarı oranı
- Ortalama Seviye: %5-8 başarı oranı
- Bazı Modeller: %0'a yakın başarı oranı
Bu sonuç, geleneksel SWE-Bench'teki performanstan çok daha düşük.
Neden Bu Kadar Zor?

Mobil uygulama kod tabanının özellikleri ek zorluklar getiriyor:
- Çoklu Uç Adaptasyonu: Hem iOS hem de Android platformları dikkate alınmalıdır.
- Karmaşık Bağımlılıklar: Mobil uygulamaların modülleri arasındaki bağlantı yüksek.
- Performans Kısıtlamaları: Mobil cihazların kaynakları sınırlıdır, kod optimizasyonu gereksinimleri yüksektir.
- Karmaşık UI Mantığı: Arayüz etkileşim kodunun statik analizi zordur.
Geleneksel Kıyaslamalarla Karşılaştırma

Geleneksel SWE-Bench ile karşılaştırıldığında, Mobile sürümünün zorluğu önemli ölçüde artmıştır:
- Kod tabanı boyutu daha büyük
- İş mantığı daha karmaşık
- Test senaryolarını geçmek daha zor
- Bağlam penceresi gereksinimleri daha yüksek
Sektör Anlamı

Bu kıyaslama testi, yapay zeka ajanlarının gerçek endüstriyel senaryolardaki sınırlamalarını ortaya koyuyor. Yapay zeka kod oluşturma konusunda hızla ilerleme kaydetse de, büyük ve karmaşık gerçek projeleri ele alırken hala gidilecek uzun bir yol var.
Gelecek Beklentileri

SWE-Bench Mobile'ın yayınlanması, yapay zeka programlama araçlarının geliştirilmesi için önemli bir ölçüt sağlıyor. Bize şunu hatırlatıyor:
- Yapay zeka destekli programlama hala insan gözetimi gerektiriyor
- Karmaşık projeler daha akıllı bağlam anlayışı gerektiriyor
- Model yetenekleri için hala büyük bir gelişme alanı var
Kaynak Bağlantıları






