شیاؤ ہونگ شو نے SWE-Bench Mobile جاری کیا: جب AI ایجنٹ کروڑوں صارفین کی ایپ کوڈ لائبریری کا سامنا کرتے ہیں، تو سب سے زیادہ کامیابی کی شرح صرف 12% ہے؟

2/15/2026
3 min read

شیاؤ ہونگ شو نے SWE-Bench Mobile جاری کیا: جب AI ایجنٹ کروڑوں صارفین کی ایپ کوڈ لائبریری کا سامنا کرتے ہیں، تو سب سے زیادہ کامیابی کی شرح صرف 12% ہے؟

SWE-Bench Mobile

شیاؤ ہونگ شو ٹیم نے ایک نیا بینچ مارک ٹیسٹ SWE-Bench Mobile جاری کیا ہے، جو خاص طور پر حقیقی موبائل ایپلیکیشن کوڈ لائبریریوں پر AI ایجنٹ کی کارکردگی کا جائزہ لینے کے لیے ہے۔ نتائج فکر انگیز ہیں: یہاں تک کہ اعلیٰ ترین AI ایجنٹ کو بھی، جب کروڑوں صارفین کی ایپ کے کوڈ لائبریری کا سامنا کرنا پڑتا ہے، تو سب سے زیادہ کامیابی کی شرح صرف 12% ہوتی ہے۔

ٹیسٹ کا منظر

SWE-Bench Mobile کیا ہے؟

بینچ مارک کا تعارف

SWE-Bench Mobile موبائل ایپلیکیشن ڈویلپمنٹ کے لیے کوڈ فکسنگ بینچ مارک ٹیسٹ ہے۔ اس میں حقیقی موبائل ایپلیکیشن بگ فکسنگ کے کام شامل ہیں، جس میں AI ایجنٹ سے مندرجہ ذیل کی توقع کی جاتی ہے:

  • پیچیدہ موبائل ایپلیکیشن کوڈ ڈھانچے کو سمجھنا
  • مسئلے کی جڑ کی نشاندہی کرنا
  • درست فکس کوڈ تیار کرنا
  • اس بات کو یقینی بنانا کہ فکسنگ سے کوئی نیا مسئلہ پیدا نہ ہو

ٹیسٹ کے نتائج

ٹیسٹ کے نتائج

ٹیسٹ میں، متعدد اہم AI ایجنٹوں کی کارکردگی درج ذیل ہے:

  • بہترین کارکردگی: 12% کامیابی کی شرح
  • اوسط سطح: 5-8% کامیابی کی شرح
  • کچھ ماڈل: 0% کامیابی کی شرح کے قریب

یہ نتیجہ روایتی SWE-Bench پر کارکردگی سے بہت کم ہے۔

یہ اتنا مشکل کیوں ہے؟

چیلنج کا تجزیہ

موبائل ایپلیکیشن کوڈ لائبریری کی خاصیت اضافی چیلنجز لاتی ہے:

  • ملٹی پلیٹ فارم موافقت: iOS اور Android پلیٹ فارمز دونوں پر بیک وقت غور کرنے کی ضرورت ہے
  • پیچیدہ انحصار: موبائل ایپلیکیشن کے ماڈیولز کے درمیان جوڑنے کی ڈگری زیادہ ہے
  • کارکردگی کی رکاوٹیں: موبائل ڈیوائس کے وسائل محدود ہیں، کوڈ کی اصلاح کی ضروریات زیادہ ہیں
  • UI منطق پیچیدہ: انٹرفیس انٹرایکشن کوڈ کا جامد تجزیہ کرنا مشکل ہے

روایتی بینچ مارک سے موازنہ

موازنہ تجزیہ

روایتی SWE-Bench کے مقابلے میں، Mobile ورژن کی مشکل میں نمایاں اضافہ ہوا ہے:

  • کوڈ لائبریری کا سائز بڑا ہے
  • بزنس لاجک زیادہ پیچیدہ ہے
  • ٹیسٹ کیسز پاس کرنا زیادہ مشکل ہے
  • سیاق و سباق کی ونڈو کی ضروریات زیادہ ہیں

صنعت کی اہمیت

صنعت کی اہمیت

یہ بینچ مارک ٹیسٹ حقیقی صنعتی منظرناموں میں AI ایجنٹ کی حدود کو ظاہر کرتا ہے۔ اگرچہ کوڈ جنریشن کے معاملے میں AI نے تیزی سے ترقی کی ہے، لیکن بڑے، پیچیدہ حقیقی منصوبوں سے نمٹنے کے لیے ابھی بھی ایک لمبا راستہ طے کرنا باقی ہے۔

مستقبل کا منظرنامہ

مستقبل کا منظرنامہ

SWE-Bench Mobile کا اجراء AI پروگرامنگ ٹولز کی ترقی کے لیے ایک اہم پیمانہ فراہم کرتا ہے۔ یہ ہمیں یاد دلاتا ہے:

  • AI معاون پروگرامنگ کو اب بھی انسانی نگرانی کی ضرورت ہے
  • پیچیدہ منصوبوں کو زیادہ ذہین سیاق و سباق کی سمجھ کی ضرورت ہے
  • ماڈل کی صلاحیت میں بہتری کی بہت گنجائش ہے

وسائل کے لنکس

وسائل

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy ترمیم گائیڈ: چمکدار لیجنڈری پالتو جانور کیسے حاصل کریں

Claude Code Buddy ترمیم گائیڈ: چمکدار لیجنڈری پالتو جانور کیسے حاصل کریں 2026年4月1日،Anthropic 在 Claude Code 2.1.89 版本中悄然上...

Obsidian نے Defuddle متعارف کرایا، Obsidian Web Clipper کو ایک نئے عروج پر لے گیاTechnology

Obsidian نے Defuddle متعارف کرایا، Obsidian Web Clipper کو ایک نئے عروج پر لے گیا

Obsidian نے Defuddle متعارف کرایا، Obsidian Web Clipper کو ایک نئے عروج پر لے گیا میں ہمیشہ Obsidian کے بنیادی نظریے کو...

OpenAI اچانک اعلان کرتا ہے "تین میں ایک": براؤزر + پروگرامنگ + ChatGPT کا انضمام، اندرونی طور پر تسلیم کیا کہ پچھلے سال غلط راستہ اختیار کیا گیاTechnology

OpenAI اچانک اعلان کرتا ہے "تین میں ایک": براؤزر + پروگرامنگ + ChatGPT کا انضمام، اندرونی طور پر تسلیم کیا کہ پچھلے سال غلط راستہ اختیار کیا گیا

OpenAI اچانک اعلان کرتا ہے "تین میں ایک": براؤزر + پروگرامنگ + ChatGPT کا انضمام، اندرونی طور پر تسلیم کیا کہ پچھلے سال ...

2026، خود کو "خود نظم" کرنے پر مجبور نہ کریں! یہ 8 چھوٹے کام کریں، صحت خود بخود آئے گیHealth

2026، خود کو "خود نظم" کرنے پر مجبور نہ کریں! یہ 8 چھوٹے کام کریں، صحت خود بخود آئے گی

2026، خود کو "خود نظم" کرنے پر مجبور نہ کریں! یہ 8 چھوٹے کام کریں، صحت خود بخود آئے گی نیا سال شروع ہو چکا ہے، کیا آپ ن...

وہ مائیں جو وزن کم کرنے کی کوشش کر رہی ہیں لیکن کامیاب نہیں ہو پا رہی ہیں، یقیناً یہاں پھنس گئی ہیںHealth

وہ مائیں جو وزن کم کرنے کی کوشش کر رہی ہیں لیکن کامیاب نہیں ہو پا رہی ہیں، یقیناً یہاں پھنس گئی ہیں

وہ مائیں جو وزن کم کرنے کی کوشش کر رہی ہیں لیکن کامیاب نہیں ہو پا رہی ہیں، یقیناً یہاں پھنس گئی ہیں مارچ کا نصف گزر چکا...

📝
Technology

AI Browser 24 گھنٹے مستحکم چلانے کی رہنمائی

AI Browser 24 گھنٹے مستحکم چلانے کی رہنمائی یہ سبق مستحکم، طویل مدتی AI براؤزر ماحول قائم کرنے کا طریقہ بیان کرتا ہے۔ مو...