شیاؤ ہونگ شو نے SWE-Bench Mobile جاری کیا: جب AI ایجنٹ کروڑوں صارفین کی ایپ کوڈ لائبریری کا سامنا کرتے ہیں، تو سب سے زیادہ کامیابی کی شرح صرف 12% ہے؟

SWE-Bench Mobile

شیاؤ ہونگ شو ٹیم نے ایک نیا بینچ مارک ٹیسٹ SWE-Bench Mobile جاری کیا ہے، جو خاص طور پر حقیقی موبائل ایپلیکیشن کوڈ لائبریریوں پر AI ایجنٹ کی کارکردگی کا جائزہ لینے کے لیے ہے۔ نتائج فکر انگیز ہیں: یہاں تک کہ اعلیٰ ترین AI ایجنٹ کو بھی، جب کروڑوں صارفین کی ایپ کے کوڈ لائبریری کا سامنا کرنا پڑتا ہے، تو سب سے زیادہ کامیابی کی شرح صرف 12% ہوتی ہے۔

ٹیسٹ کا منظر

SWE-Bench Mobile کیا ہے؟

بینچ مارک کا تعارف

SWE-Bench Mobile موبائل ایپلیکیشن ڈویلپمنٹ کے لیے کوڈ فکسنگ بینچ مارک ٹیسٹ ہے۔ اس میں حقیقی موبائل ایپلیکیشن بگ فکسنگ کے کام شامل ہیں، جس میں AI ایجنٹ سے مندرجہ ذیل کی توقع کی جاتی ہے:

پیچیدہ موبائل ایپلیکیشن کوڈ ڈھانچے کو سمجھنا
مسئلے کی جڑ کی نشاندہی کرنا
درست فکس کوڈ تیار کرنا
اس بات کو یقینی بنانا کہ فکسنگ سے کوئی نیا مسئلہ پیدا نہ ہو

ٹیسٹ کے نتائج

ٹیسٹ میں، متعدد اہم AI ایجنٹوں کی کارکردگی درج ذیل ہے:

بہترین کارکردگی: 12% کامیابی کی شرح
اوسط سطح: 5-8% کامیابی کی شرح
کچھ ماڈل: 0% کامیابی کی شرح کے قریب

یہ نتیجہ روایتی SWE-Bench پر کارکردگی سے بہت کم ہے۔

یہ اتنا مشکل کیوں ہے؟

چیلنج کا تجزیہ

موبائل ایپلیکیشن کوڈ لائبریری کی خاصیت اضافی چیلنجز لاتی ہے:

ملٹی پلیٹ فارم موافقت: iOS اور Android پلیٹ فارمز دونوں پر بیک وقت غور کرنے کی ضرورت ہے
پیچیدہ انحصار: موبائل ایپلیکیشن کے ماڈیولز کے درمیان جوڑنے کی ڈگری زیادہ ہے
کارکردگی کی رکاوٹیں: موبائل ڈیوائس کے وسائل محدود ہیں، کوڈ کی اصلاح کی ضروریات زیادہ ہیں
UI منطق پیچیدہ: انٹرفیس انٹرایکشن کوڈ کا جامد تجزیہ کرنا مشکل ہے

روایتی بینچ مارک سے موازنہ

موازنہ تجزیہ

روایتی SWE-Bench کے مقابلے میں، Mobile ورژن کی مشکل میں نمایاں اضافہ ہوا ہے:

کوڈ لائبریری کا سائز بڑا ہے
بزنس لاجک زیادہ پیچیدہ ہے
ٹیسٹ کیسز پاس کرنا زیادہ مشکل ہے
سیاق و سباق کی ونڈو کی ضروریات زیادہ ہیں

صنعت کی اہمیت

یہ بینچ مارک ٹیسٹ حقیقی صنعتی منظرناموں میں AI ایجنٹ کی حدود کو ظاہر کرتا ہے۔ اگرچہ کوڈ جنریشن کے معاملے میں AI نے تیزی سے ترقی کی ہے، لیکن بڑے، پیچیدہ حقیقی منصوبوں سے نمٹنے کے لیے ابھی بھی ایک لمبا راستہ طے کرنا باقی ہے۔

مستقبل کا منظرنامہ

SWE-Bench Mobile کا اجراء AI پروگرامنگ ٹولز کی ترقی کے لیے ایک اہم پیمانہ فراہم کرتا ہے۔ یہ ہمیں یاد دلاتا ہے:

AI معاون پروگرامنگ کو اب بھی انسانی نگرانی کی ضرورت ہے
پیچیدہ منصوبوں کو زیادہ ذہین سیاق و سباق کی سمجھ کی ضرورت ہے
ماڈل کی صلاحیت میں بہتری کی بہت گنجائش ہے

وسائل کے لنکس

وسائل

مقالہ: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

شیاؤ ہونگ شو نے SWE-Bench Mobile جاری کیا: جب AI ایجنٹ کروڑوں صارفین کی ایپ کوڈ لائبریری کا سامنا کرتے ہیں، تو سب سے زیادہ کامیابی کی شرح صرف 12% ہے؟

شیاؤ ہونگ شو نے SWE-Bench Mobile جاری کیا: جب AI ایجنٹ کروڑوں صارفین کی ایپ کوڈ لائبریری کا سامنا کرتے ہیں، تو سب سے زیادہ کامیابی کی شرح صرف 12% ہے؟

SWE-Bench Mobile کیا ہے؟

ٹیسٹ کے نتائج

یہ اتنا مشکل کیوں ہے؟

روایتی بینچ مارک سے موازنہ

صنعت کی اہمیت

مستقبل کا منظرنامہ

وسائل کے لنکس

You Might Also Like

Claude Code Buddy ترمیم گائیڈ: چمکدار لیجنڈری پالتو جانور کیسے حاصل کریں

Obsidian نے Defuddle متعارف کرایا، Obsidian Web Clipper کو ایک نئے عروج پر لے گیا

OpenAI اچانک اعلان کرتا ہے "تین میں ایک": براؤزر + پروگرامنگ + ChatGPT کا انضمام، اندرونی طور پر تسلیم کیا کہ پچھلے سال غلط راستہ اختیار کیا گیا

2026، خود کو "خود نظم" کرنے پر مجبور نہ کریں! یہ 8 چھوٹے کام کریں، صحت خود بخود آئے گی

وہ مائیں جو وزن کم کرنے کی کوشش کر رہی ہیں لیکن کامیاب نہیں ہو پا رہی ہیں، یقیناً یہاں پھنس گئی ہیں

AI Browser 24 گھنٹے مستحکم چلانے کی رہنمائی