Xiaohongshu, SWE-Bench Mobile'ı Yayınladı: Yapay Zeka Ajanı Yüz Milyonlarca Kullanıcılı Uygulama Kod Tabanıyla Karşılaştığında, En Yüksek Başarı Oranı Sadece %12 mi?

SWE-Bench Mobile

Xiaohongshu ekibi, yapay zeka ajanlarının gerçek mobil uygulama kod tabanlarındaki performansını değerlendirmek için özel olarak tasarlanmış yeni bir kıyaslama testi olan SWE-Bench Mobile'ı yayınladı. Sonuçlar düşündürücü: En iyi yapay zeka ajanları bile, yüz milyonlarca kullanıcılı bir uygulamanın kod tabanıyla karşılaştığında, en yüksek başarı oranı sadece %12.

Test Senaryosu

SWE-Bench Mobile Nedir?

Kıyaslama Tanıtımı

SWE-Bench Mobile, mobil uygulama geliştirme için bir kod düzeltme kıyaslama testidir. Gerçek mobil uygulama hata düzeltme görevlerini içerir ve yapay zeka ajanının şunları yapabilmesini gerektirir:

Karmaşık mobil uygulama kod yapısını anlamak
Sorunların kök nedenlerini belirlemek
Doğru düzeltme kodunu oluşturmak
Düzeltmenin yeni sorunlara yol açmadığından emin olmak

Test Sonuçları

Testlerde, çeşitli ana akım yapay zeka ajanlarının performansı aşağıdaki gibidir:

En İyi Performans: %12 başarı oranı
Ortalama Seviye: %5-8 başarı oranı
Bazı Modeller: %0'a yakın başarı oranı

Bu sonuç, geleneksel SWE-Bench'teki performanstan çok daha düşük.

Neden Bu Kadar Zor?

Zorluk Analizi

Mobil uygulama kod tabanının özellikleri ek zorluklar getiriyor:

Çoklu Uç Adaptasyonu: Hem iOS hem de Android platformları dikkate alınmalıdır.
Karmaşık Bağımlılıklar: Mobil uygulamaların modülleri arasındaki bağlantı yüksek.
Performans Kısıtlamaları: Mobil cihazların kaynakları sınırlıdır, kod optimizasyonu gereksinimleri yüksektir.
Karmaşık UI Mantığı: Arayüz etkileşim kodunun statik analizi zordur.

Geleneksel Kıyaslamalarla Karşılaştırma

Karşılaştırma Analizi

Geleneksel SWE-Bench ile karşılaştırıldığında, Mobile sürümünün zorluğu önemli ölçüde artmıştır:

Kod tabanı boyutu daha büyük
İş mantığı daha karmaşık
Test senaryolarını geçmek daha zor
Bağlam penceresi gereksinimleri daha yüksek

Sektör Anlamı

Bu kıyaslama testi, yapay zeka ajanlarının gerçek endüstriyel senaryolardaki sınırlamalarını ortaya koyuyor. Yapay zeka kod oluşturma konusunda hızla ilerleme kaydetse de, büyük ve karmaşık gerçek projeleri ele alırken hala gidilecek uzun bir yol var.

Gelecek Beklentileri

SWE-Bench Mobile'ın yayınlanması, yapay zeka programlama araçlarının geliştirilmesi için önemli bir ölçüt sağlıyor. Bize şunu hatırlatıyor:

Yapay zeka destekli programlama hala insan gözetimi gerektiriyor
Karmaşık projeler daha akıllı bağlam anlayışı gerektiriyor
Model yetenekleri için hala büyük bir gelişme alanı var

Kaynak Bağlantıları

Kaynaklar

Makale: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu, SWE-Bench Mobile'ı Yayınladı: Yapay Zeka Ajanı Yüz Milyonlarca Kullanıcılı Uygulama Kod Tabanıyla Karşılaştığında, En Yüksek Başarı Oranı Sadece %12 mi?

Xiaohongshu, SWE-Bench Mobile'ı Yayınladı: Yapay Zeka Ajanı Yüz Milyonlarca Kullanıcılı Uygulama Kod Tabanıyla Karşılaştığında, En Yüksek Başarı Oranı Sadece %12 mi?

SWE-Bench Mobile Nedir?

Test Sonuçları

Neden Bu Kadar Zor?

Geleneksel Kıyaslamalarla Karşılaştırma

Sektör Anlamı

Gelecek Beklentileri

Kaynak Bağlantıları

You Might Also Like

Claude Code Buddy Değiştirme Kılavuzu: Parlak Efsanevi Evcil Hayvan Nasıl Elde Edilir

Obsidian Defuddle'ı Tanıttı, Obsidian Web Clipper'ı Yeni Bir Seviyeye Taşıdı

OpenAI aniden "üçü bir arada" duyurdu: Tarayıcı + Programlama + ChatGPT birleşti, içten içe geçen yılın yanlış olduğunu kabul etti

2026, kendini daha fazla "disiplin" etme! Bu 8 küçük şeyi yap, sağlık kendiliğinden gelir

O Kilo Vermek İçin Çaba Gösteren Ama Başaramayan Anneler, Kesinlikle Burada Takılıyorlar

AI Tarayıcı 24 Saat Stabil Çalışma Rehberi