小红书-მ გამოაქვეყნა SWE-Bench Mobile: როდესაც AI Agent მილიონობით მომხმარებლის App-ის კოდის ბაზას აწყდება, წარმატების მაქსიმალური მაჩვენებელი მხოლოდ 12%-ია?

SWE-Bench Mobile

小红书-ის გუნდმა გამოაქვეყნა ახალი საორიენტაციო ტესტი SWE-Bench Mobile, რომელიც სპეციალურად შექმნილია AI Agent-ის რეალური მობილური აპლიკაციების კოდის ბაზებზე მუშაობის შესაფასებლად. შედეგები საგულისხმოა: საუკეთესო AI Agent-საც კი, მილიონობით მომხმარებლის App-ის კოდის ბაზასთან შეხვედრისას, წარმატების მაქსიმალური მაჩვენებელი მხოლოდ 12%-ია.

ტესტირების სცენარი

რა არის SWE-Bench Mobile?

საორიენტაციო ტესტის აღწერა

SWE-Bench Mobile არის კოდის გამოსწორების საორიენტაციო ტესტი მობილური აპლიკაციების შემუშავებისთვის. იგი შეიცავს რეალური მობილური აპლიკაციების Bug-ის გამოსწორების ამოცანებს, რომლებიც AI Agent-ს მოითხოვს:

გაიგოს მობილური აპლიკაციების რთული კოდის სტრუქტურა
იპოვოს პრობლემის სათავე
შექმნას კოდის სწორი შესწორება
დარწმუნდეს, რომ შესწორება არ წარმოშობს ახალ პრობლემებს

ტესტის შედეგები

ტესტირებისას, რამდენიმე ძირითადი AI Agent-ის მუშაობა შემდეგია:

საუკეთესო შედეგი: 12% წარმატების მაჩვენებელი
საშუალო დონე: 5-8% წარმატების მაჩვენებელი
ზოგიერთი მოდელი: 0%-თან ახლოს წარმატების მაჩვენებელი

ეს შედეგი გაცილებით დაბალია, ვიდრე ტრადიციულ SWE-Bench-ზე.

რატომ არის ასე რთული?

გამოწვევების ანალიზი

მობილური აპლიკაციების კოდის ბაზის სპეციფიკა დამატებით გამოწვევებს ქმნის:

მრავალ პლატფორმაზე ადაპტაცია: საჭიროა iOS და Android პლატფორმების ერთდროულად გათვალისწინება
რთული დამოკიდებულებები: მობილური აპლიკაციების მოდულებს შორის მაღალი კავშირია
შესრულების შეზღუდვები: მობილური მოწყობილობების რესურსები შეზღუდულია, კოდის ოპტიმიზაციის მოთხოვნები მაღალია
UI ლოგიკის სირთულე: ინტერფეისის ურთიერთქმედების კოდის სტატიკური ანალიზი რთულია

ტრადიციულ საორიენტაციო ტესტებთან შედარება

შედარებითი ანალიზი

ტრადიციულ SWE-Bench-თან შედარებით, Mobile ვერსიის სირთულე მნიშვნელოვნად გაიზარდა:

კოდის ბაზის მასშტაბი უფრო დიდია
ბიზნეს ლოგიკა უფრო რთულია
ტესტის შემთხვევების გავლა უფრო რთულია
კონტექსტის ფანჯრის მოთხოვნები უფრო მაღალია

ინდუსტრიის მნიშვნელობა

ეს საორიენტაციო ტესტი ავლენს AI Agent-ის შეზღუდვებს რეალურ ინდუსტრიულ სცენარებში. მიუხედავად იმისა, რომ AI სწრაფად ვითარდება კოდის გენერირების თვალსაზრისით, მას ჯერ კიდევ დიდი გზა აქვს გასავლელი დიდი, რთული რეალური პროექტების დამუშავებისას.