Inilabas ng Xiaohongshu ang SWE-Bench Mobile: Kapag Humarap ang AI Agent sa Codebase ng App na May Bilyong User, 12% Lang Ba ang Pinakamataas na Rate ng Pagpasa?

SWE-Bench Mobile

Naglabas ang team ng Xiaohongshu ng bagong benchmark na SWE-Bench Mobile, na espesyal na idinisenyo para suriin ang performance ng AI Agent sa tunay na mobile application codebase. Nakakapag-isip ang resulta: kahit na ang mga nangungunang AI Agent, kapag humarap sa codebase ng App na may bilyong user, 12% lang ang pinakamataas na rate ng pagpasa.

Mga sitwasyon ng pagsubok

Ano ang SWE-Bench Mobile?

Panimula sa benchmark

Ang SWE-Bench Mobile ay isang benchmark para sa pag-aayos ng code na nakatuon sa pagbuo ng mobile application. Naglalaman ito ng mga tunay na gawain sa pag-aayos ng Bug sa mobile application, na nangangailangan ng AI Agent na:

Unawain ang kumplikadong istraktura ng code ng mobile application
Tukuyin ang pinagmulan ng problema
Bumuo ng tamang code ng pag-aayos
Tiyakin na ang pag-aayos ay hindi magpapakilala ng mga bagong problema

Mga resulta ng pagsubok

Sa pagsubok, ang performance ng maraming pangunahing AI Agent ay ang mga sumusunod:

Pinakamahusay na performance: 12% na rate ng pagpasa
Average na antas: 5-8% na rate ng pagpasa
Ilang modelo: Halos 0% na rate ng pagpasa

Ang resultang ito ay mas mababa kaysa sa performance sa tradisyonal na SWE-Bench.

Bakit napakahirap?

Pagsusuri ng hamon

Ang mga espesyal na katangian ng mobile application codebase ay nagdudulot ng karagdagang mga hamon:

Multi-end adaptation: Kailangang isaalang-alang ang mga platform ng iOS at Android nang sabay
Kumplikadong mga dependency: Mataas ang coupling sa pagitan ng mga module ng mobile application
Mga paghihigpit sa performance: Limitado ang mga mapagkukunan ng mobile device, at mataas ang mga kinakailangan sa pag-optimize ng code
Kumplikadong UI logic: Mahirap i-static analyze ang code ng interaction ng interface

Paghahambing sa tradisyonal na benchmark

Paghahambing na pagsusuri

Kung ikukumpara sa tradisyonal na SWE-Bench, ang kahirapan ng Mobile na bersyon ay makabuluhang tumaas:

Mas malaki ang sukat ng codebase
Mas kumplikado ang logic ng negosyo
Mas mahirap ipasa ang mga test case
Mas mataas ang mga kinakailangan sa context window

Kahalagahan ng industriya

Ibinunyag ng benchmark na ito ang mga limitasyon ng AI Agent sa mga tunay na pang-industriya na sitwasyon. Bagama't mabilis ang pag-unlad ng AI sa pagbuo ng code, mayroon pa ring mahabang daan na tatahakin sa paghawak ng malalaki at kumplikadong tunay na proyekto.

Mga inaasahan sa hinaharap

Ang paglabas ng SWE-Bench Mobile ay nagbibigay ng mahalagang pamantayan para sa pag-unlad ng mga tool sa pagprograma ng AI. Ipinapaalala nito sa atin na:

Kailangan pa rin ng pangangasiwa ng tao ang AI-assisted programming
Ang mga kumplikadong proyekto ay nangangailangan ng mas matalinong pag-unawa sa konteksto
Malaki pa ang puwang para sa pagpapabuti ng kakayahan ng modelo

Mga link ng mapagkukunan

Mga mapagkukunan

Papel: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Inilabas ng Xiaohongshu ang SWE-Bench Mobile: Kapag Humarap ang AI Agent sa Codebase ng App na May Bilyong User, 12% Lang Ba ang Pinakamataas na Rate ng Pagpasa?

Inilabas ng Xiaohongshu ang SWE-Bench Mobile: Kapag Humarap ang AI Agent sa Codebase ng App na May Bilyong User, 12% Lang Ba ang Pinakamataas na Rate ng Pagpasa?

Ano ang SWE-Bench Mobile?

Mga resulta ng pagsubok

Bakit napakahirap?

Paghahambing sa tradisyonal na benchmark

Kahalagahan ng industriya

Mga inaasahan sa hinaharap

Mga link ng mapagkukunan

You Might Also Like

Claude Code Buddy Modification Guide: Paano Makakuha ng Shiny Legendary Pet

Obsidian Naglunsad ng Defuddle, Itinataas ang Obsidian Web Clipper sa Isang Bagong Antas

OpenAI biglang nag-anunsyo ng "tatlong sa isa": Pagsasama ng browser + programming + ChatGPT, kinilala ang maling landas sa nakaraang taon

2026, huwag nang pilitin ang sarili sa 'disiplina'! Gawin ang 8 maliliit na bagay na ito, ang kalusugan ay darating nang natural

Ang mga ina na nagsisikap na magbawas ng timbang ngunit hindi nagtagumpay, tiyak na nagkamali dito

AI Browser 24小时稳定运行指南