Xiaohongshu কর্তৃক SWE-Bench Mobile প্রকাশ: যখন একটি AI Agent কোটি কোটি ব্যবহারকারীর App কোডবেসের সম্মুখীন হয়, তখন সর্বোচ্চ সাফল্যের হার মাত্র 12%?
Xiaohongshu কর্তৃক SWE-Bench Mobile প্রকাশ: যখন একটি AI Agent কোটি কোটি ব্যবহারকারীর App কোডবেসের সম্মুখীন হয়, তখন সর্বোচ্চ সাফল্যের হার মাত্র 12%?

Xiaohongshu টিম একটি নতুন বেঞ্চমার্ক SWE-Bench Mobile প্রকাশ করেছে, যা বিশেষভাবে বাস্তব মোবাইল অ্যাপ্লিকেশন কোডবেসে AI Agent-এর কর্মক্ষমতা মূল্যায়নের জন্য তৈরি। ফলাফল গভীর চিন্তার উদ্রেক করে: এমনকি শীর্ষস্থানীয় AI Agent-ও যখন কোটি কোটি ব্যবহারকারীর App-এর কোডবেসের সম্মুখীন হয়, তখন সর্বোচ্চ সাফল্যের হার মাত্র 12%।

SWE-Bench Mobile কী?

SWE-Bench Mobile হল মোবাইল অ্যাপ্লিকেশন ডেভেলপমেন্টের জন্য একটি কোড ফিক্সিং বেঞ্চমার্ক। এতে বাস্তব মোবাইল অ্যাপ্লিকেশন বাগ ফিক্সিংয়ের কাজ অন্তর্ভুক্ত রয়েছে, যার জন্য AI Agent-এর প্রয়োজন:
- জটিল মোবাইল অ্যাপ্লিকেশন কোড কাঠামো বোঝা
- সমস্যার মূল কারণ সনাক্ত করা
- সঠিক ফিক্স কোড তৈরি করা
- নিশ্চিত করা যে ফিক্সটি নতুন সমস্যা তৈরি করবে না
পরীক্ষার ফলাফল

পরীক্ষায়, একাধিক প্রধান AI Agent-এর কর্মক্ষমতা নিম্নরূপ:
- সেরা কর্মক্ষমতা: 12% সাফল্যের হার
- গড় মান: 5-8% সাফল্যের হার
- কিছু মডেল: প্রায় 0% সাফল্যের হার
এই ফলাফল ঐতিহ্যবাহী SWE-Bench-এর তুলনায় অনেক কম।
এটা এত কঠিন কেন?

মোবাইল অ্যাপ্লিকেশন কোডবেসের বিশেষত্ব অতিরিক্ত চ্যালেঞ্জ নিয়ে আসে:
- মাল্টি-প্ল্যাটফর্ম অ্যাডাপটেশন: একই সাথে iOS এবং Android প্ল্যাটফর্ম বিবেচনা করতে হয়
- জটিল নির্ভরতা: মোবাইল অ্যাপ্লিকেশনের মডিউলগুলির মধ্যে কাপলিং বেশি
- কর্মক্ষমতা সীমাবদ্ধতা: মোবাইল ডিভাইসের সীমিত সম্পদ রয়েছে, তাই কোড অপ্টিমাইজেশনের প্রয়োজনীয়তা বেশি
- UI লজিকের জটিলতা: ইন্টারফেস ইন্টারঅ্যাকশন কোড স্ট্যাটিক্যালি বিশ্লেষণ করা কঠিন
ঐতিহ্যবাহী বেঞ্চমার্কের সাথে তুলনা

ঐতিহ্যবাহী SWE-Bench-এর তুলনায়, Mobile সংস্করণের অসুবিধা উল্লেখযোগ্যভাবে বেশি:
- কোডবেসের আকার বড়
- ব্যবসার লজিক আরও জটিল
- পরীক্ষার ব্যবহারের ক্ষেত্রে উত্তীর্ণ হওয়া কঠিন
- কনটেক্সট উইন্ডোর প্রয়োজনীয়তা বেশি
শিল্পের তাৎপর্য

এই বেঞ্চমার্কটি বাস্তব শিল্প পরিস্থিতিতে AI Agent-এর সীমাবদ্ধতা প্রকাশ করে। কোড জেনারেশনের ক্ষেত্রে AI দ্রুত উন্নতি করলেও, বৃহৎ, জটিল বাস্তব প্রকল্পগুলি পরিচালনা করার ক্ষেত্রে এখনও অনেক পথ বাকি।
ভবিষ্যতের প্রত্যাশা

SWE-Bench Mobile-এর প্রকাশ AI প্রোগ্রামিং সরঞ্জামগুলির বিকাশের জন্য একটি গুরুত্বপূর্ণ পরিমাপক প্রদান করে। এটি আমাদের মনে করিয়ে দেয়:
- AI-সহায়ক প্রোগ্রামিংয়ের জন্য এখনও মানুষের তত্ত্বাবধান প্রয়োজন
- জটিল প্রকল্পের জন্য আরও বুদ্ধিমান কনটেক্সট বোঝার প্রয়োজন
- মডেলের ক্ষমতার উন্নতির জন্য এখনও অনেক সুযোগ রয়েছে
রিসোর্স লিঙ্ক






