شیاؤ ہونگ شو نے SWE-Bench Mobile جاری کیا: جب AI ایجنٹ کروڑوں صارفین کی ایپ کوڈ لائبریری کا سامنا کرتے ہیں، تو سب سے زیادہ کامیابی کی شرح صرف 12% ہے؟
شیاؤ ہونگ شو نے SWE-Bench Mobile جاری کیا: جب AI ایجنٹ کروڑوں صارفین کی ایپ کوڈ لائبریری کا سامنا کرتے ہیں، تو سب سے زیادہ کامیابی کی شرح صرف 12% ہے؟

شیاؤ ہونگ شو ٹیم نے ایک نیا بینچ مارک ٹیسٹ SWE-Bench Mobile جاری کیا ہے، جو خاص طور پر حقیقی موبائل ایپلیکیشن کوڈ لائبریریوں پر AI ایجنٹ کی کارکردگی کا جائزہ لینے کے لیے ہے۔ نتائج فکر انگیز ہیں: یہاں تک کہ اعلیٰ ترین AI ایجنٹ کو بھی، جب کروڑوں صارفین کی ایپ کے کوڈ لائبریری کا سامنا کرنا پڑتا ہے، تو سب سے زیادہ کامیابی کی شرح صرف 12% ہوتی ہے۔

SWE-Bench Mobile کیا ہے؟

SWE-Bench Mobile موبائل ایپلیکیشن ڈویلپمنٹ کے لیے کوڈ فکسنگ بینچ مارک ٹیسٹ ہے۔ اس میں حقیقی موبائل ایپلیکیشن بگ فکسنگ کے کام شامل ہیں، جس میں AI ایجنٹ سے مندرجہ ذیل کی توقع کی جاتی ہے:
- پیچیدہ موبائل ایپلیکیشن کوڈ ڈھانچے کو سمجھنا
- مسئلے کی جڑ کی نشاندہی کرنا
- درست فکس کوڈ تیار کرنا
- اس بات کو یقینی بنانا کہ فکسنگ سے کوئی نیا مسئلہ پیدا نہ ہو
ٹیسٹ کے نتائج

ٹیسٹ میں، متعدد اہم AI ایجنٹوں کی کارکردگی درج ذیل ہے:
- بہترین کارکردگی: 12% کامیابی کی شرح
- اوسط سطح: 5-8% کامیابی کی شرح
- کچھ ماڈل: 0% کامیابی کی شرح کے قریب
یہ نتیجہ روایتی SWE-Bench پر کارکردگی سے بہت کم ہے۔
یہ اتنا مشکل کیوں ہے؟

موبائل ایپلیکیشن کوڈ لائبریری کی خاصیت اضافی چیلنجز لاتی ہے:
- ملٹی پلیٹ فارم موافقت: iOS اور Android پلیٹ فارمز دونوں پر بیک وقت غور کرنے کی ضرورت ہے
- پیچیدہ انحصار: موبائل ایپلیکیشن کے ماڈیولز کے درمیان جوڑنے کی ڈگری زیادہ ہے
- کارکردگی کی رکاوٹیں: موبائل ڈیوائس کے وسائل محدود ہیں، کوڈ کی اصلاح کی ضروریات زیادہ ہیں
- UI منطق پیچیدہ: انٹرفیس انٹرایکشن کوڈ کا جامد تجزیہ کرنا مشکل ہے
روایتی بینچ مارک سے موازنہ

روایتی SWE-Bench کے مقابلے میں، Mobile ورژن کی مشکل میں نمایاں اضافہ ہوا ہے:
- کوڈ لائبریری کا سائز بڑا ہے
- بزنس لاجک زیادہ پیچیدہ ہے
- ٹیسٹ کیسز پاس کرنا زیادہ مشکل ہے
- سیاق و سباق کی ونڈو کی ضروریات زیادہ ہیں
صنعت کی اہمیت

یہ بینچ مارک ٹیسٹ حقیقی صنعتی منظرناموں میں AI ایجنٹ کی حدود کو ظاہر کرتا ہے۔ اگرچہ کوڈ جنریشن کے معاملے میں AI نے تیزی سے ترقی کی ہے، لیکن بڑے، پیچیدہ حقیقی منصوبوں سے نمٹنے کے لیے ابھی بھی ایک لمبا راستہ طے کرنا باقی ہے۔
مستقبل کا منظرنامہ

SWE-Bench Mobile کا اجراء AI پروگرامنگ ٹولز کی ترقی کے لیے ایک اہم پیمانہ فراہم کرتا ہے۔ یہ ہمیں یاد دلاتا ہے:
- AI معاون پروگرامنگ کو اب بھی انسانی نگرانی کی ضرورت ہے
- پیچیدہ منصوبوں کو زیادہ ذہین سیاق و سباق کی سمجھ کی ضرورت ہے
- ماڈل کی صلاحیت میں بہتری کی بہت گنجائش ہے
وسائل کے لنکس






