小红书-მ გამოაქვეყნა SWE-Bench Mobile: როდესაც AI Agent მილიონობით მომხმარებლის App-ის კოდის ბაზას აწყდება, წარმატების მაქსიმალური მაჩვენებელი მხოლოდ 12%-ია?
小红书-მ გამოაქვეყნა SWE-Bench Mobile: როდესაც AI Agent მილიონობით მომხმარებლის App-ის კოდის ბაზას აწყდება, წარმატების მაქსიმალური მაჩვენებელი მხოლოდ 12%-ია?

小红书-ის გუნდმა გამოაქვეყნა ახალი საორიენტაციო ტესტი SWE-Bench Mobile, რომელიც სპეციალურად შექმნილია AI Agent-ის რეალური მობილური აპლიკაციების კოდის ბაზებზე მუშაობის შესაფასებლად. შედეგები საგულისხმოა: საუკეთესო AI Agent-საც კი, მილიონობით მომხმარებლის App-ის კოდის ბაზასთან შეხვედრისას, წარმატების მაქსიმალური მაჩვენებელი მხოლოდ 12%-ია.

რა არის SWE-Bench Mobile?

SWE-Bench Mobile არის კოდის გამოსწორების საორიენტაციო ტესტი მობილური აპლიკაციების შემუშავებისთვის. იგი შეიცავს რეალური მობილური აპლიკაციების Bug-ის გამოსწორების ამოცანებს, რომლებიც AI Agent-ს მოითხოვს:
- გაიგოს მობილური აპლიკაციების რთული კოდის სტრუქტურა
- იპოვოს პრობლემის სათავე
- შექმნას კოდის სწორი შესწორება
- დარწმუნდეს, რომ შესწორება არ წარმოშობს ახალ პრობლემებს
ტესტის შედეგები

ტესტირებისას, რამდენიმე ძირითადი AI Agent-ის მუშაობა შემდეგია:
- საუკეთესო შედეგი: 12% წარმატების მაჩვენებელი
- საშუალო დონე: 5-8% წარმატების მაჩვენებელი
- ზოგიერთი მოდელი: 0%-თან ახლოს წარმატების მაჩვენებელი
ეს შედეგი გაცილებით დაბალია, ვიდრე ტრადიციულ SWE-Bench-ზე.
რატომ არის ასე რთული?

მობილური აპლიკაციების კოდის ბაზის სპეციფიკა დამატებით გამოწვევებს ქმნის:
- მრავალ პლატფორმაზე ადაპტაცია: საჭიროა iOS და Android პლატფორმების ერთდროულად გათვალისწინება
- რთული დამოკიდებულებები: მობილური აპლიკაციების მოდულებს შორის მაღალი კავშირია
- შესრულების შეზღუდვები: მობილური მოწყობილობების რესურსები შეზღუდულია, კოდის ოპტიმიზაციის მოთხოვნები მაღალია
- UI ლოგიკის სირთულე: ინტერფეისის ურთიერთქმედების კოდის სტატიკური ანალიზი რთულია
ტრადიციულ საორიენტაციო ტესტებთან შედარება

ტრადიციულ SWE-Bench-თან შედარებით, Mobile ვერსიის სირთულე მნიშვნელოვნად გაიზარდა:
- კოდის ბაზის მასშტაბი უფრო დიდია
- ბიზნეს ლოგიკა უფრო რთულია
- ტესტის შემთხვევების გავლა უფრო რთულია
- კონტექსტის ფანჯრის მოთხოვნები უფრო მაღალია
ინდუსტრიის მნიშვნელობა

ეს საორიენტაციო ტესტი ავლენს AI Agent-ის შეზღუდვებს რეალურ ინდუსტრიულ სცენარებში. მიუხედავად იმისა, რომ AI სწრაფად ვითარდება კოდის გენერირების თვალსაზრისით, მას ჯერ კიდევ დიდი გზა აქვს გასავლელი დიდი, რთული რეალური პროექტების დამუშავებისას.
მომავლის პერსპექტივები

SWE-Bench Mobile-ის გამოშვება უზრუნველყოფს მნიშვნელოვან საზომს AI პროგრამირების ხელსაწყოების განვითარებისთვის. ის გვახსენებს, რომ:
- AI-ს მიერ დახმარებული პროგრამირება კვლავ საჭიროებს ადამიანის ზედამხედველობას
- რთულ პროექტებს სჭირდებათ კონტექსტის უფრო ჭკვიანური გაგება
- მოდელის შესაძლებლობების გაუმჯობესების დიდი პოტენციალი არსებობს
რესურსების ბმულები






