Xiaohongshu কর্তৃক SWE-Bench Mobile প্রকাশ: যখন একটি AI Agent কোটি কোটি ব্যবহারকারীর App কোডবেসের সম্মুখীন হয়, তখন সর্বোচ্চ সাফল্যের হার মাত্র 12%?

SWE-Bench Mobile

Xiaohongshu টিম একটি নতুন বেঞ্চমার্ক SWE-Bench Mobile প্রকাশ করেছে, যা বিশেষভাবে বাস্তব মোবাইল অ্যাপ্লিকেশন কোডবেসে AI Agent-এর কর্মক্ষমতা মূল্যায়নের জন্য তৈরি। ফলাফল গভীর চিন্তার উদ্রেক করে: এমনকি শীর্ষস্থানীয় AI Agent-ও যখন কোটি কোটি ব্যবহারকারীর App-এর কোডবেসের সম্মুখীন হয়, তখন সর্বোচ্চ সাফল্যের হার মাত্র 12%।

পরীক্ষার দৃশ্য

SWE-Bench Mobile কী?

বেঞ্চমার্ক পরিচিতি

SWE-Bench Mobile হল মোবাইল অ্যাপ্লিকেশন ডেভেলপমেন্টের জন্য একটি কোড ফিক্সিং বেঞ্চমার্ক। এতে বাস্তব মোবাইল অ্যাপ্লিকেশন বাগ ফিক্সিংয়ের কাজ অন্তর্ভুক্ত রয়েছে, যার জন্য AI Agent-এর প্রয়োজন:

জটিল মোবাইল অ্যাপ্লিকেশন কোড কাঠামো বোঝা
সমস্যার মূল কারণ সনাক্ত করা
সঠিক ফিক্স কোড তৈরি করা
নিশ্চিত করা যে ফিক্সটি নতুন সমস্যা তৈরি করবে না

পরীক্ষার ফলাফল

পরীক্ষায়, একাধিক প্রধান AI Agent-এর কর্মক্ষমতা নিম্নরূপ:

সেরা কর্মক্ষমতা: 12% সাফল্যের হার
গড় মান: 5-8% সাফল্যের হার
কিছু মডেল: প্রায় 0% সাফল্যের হার

এই ফলাফল ঐতিহ্যবাহী SWE-Bench-এর তুলনায় অনেক কম।

এটা এত কঠিন কেন?

চ্যালেঞ্জ বিশ্লেষণ

মোবাইল অ্যাপ্লিকেশন কোডবেসের বিশেষত্ব অতিরিক্ত চ্যালেঞ্জ নিয়ে আসে:

মাল্টি-প্ল্যাটফর্ম অ্যাডাপটেশন: একই সাথে iOS এবং Android প্ল্যাটফর্ম বিবেচনা করতে হয়
জটিল নির্ভরতা: মোবাইল অ্যাপ্লিকেশনের মডিউলগুলির মধ্যে কাপলিং বেশি
কর্মক্ষমতা সীমাবদ্ধতা: মোবাইল ডিভাইসের সীমিত সম্পদ রয়েছে, তাই কোড অপ্টিমাইজেশনের প্রয়োজনীয়তা বেশি
UI লজিকের জটিলতা: ইন্টারফেস ইন্টারঅ্যাকশন কোড স্ট্যাটিক্যালি বিশ্লেষণ করা কঠিন

ঐতিহ্যবাহী বেঞ্চমার্কের সাথে তুলনা

তুলনামূলক বিশ্লেষণ

ঐতিহ্যবাহী SWE-Bench-এর তুলনায়, Mobile সংস্করণের অসুবিধা উল্লেখযোগ্যভাবে বেশি:

কোডবেসের আকার বড়
ব্যবসার লজিক আরও জটিল
পরীক্ষার ব্যবহারের ক্ষেত্রে উত্তীর্ণ হওয়া কঠিন
কনটেক্সট উইন্ডোর প্রয়োজনীয়তা বেশি

শিল্পের তাৎপর্য

এই বেঞ্চমার্কটি বাস্তব শিল্প পরিস্থিতিতে AI Agent-এর সীমাবদ্ধতা প্রকাশ করে। কোড জেনারেশনের ক্ষেত্রে AI দ্রুত উন্নতি করলেও, বৃহৎ, জটিল বাস্তব প্রকল্পগুলি পরিচালনা করার ক্ষেত্রে এখনও অনেক পথ বাকি।