شیاؤ ہونگ شو نے SWE-Bench Mobile جاری کیا: جب AI ایجنٹ کروڑوں صارفین کی ایپ کوڈ لائبریری کا سامنا کرتے ہیں، تو سب سے زیادہ کامیابی کی شرح صرف 12% ہے؟

2/15/2026
3 min read

شیاؤ ہونگ شو نے SWE-Bench Mobile جاری کیا: جب AI ایجنٹ کروڑوں صارفین کی ایپ کوڈ لائبریری کا سامنا کرتے ہیں، تو سب سے زیادہ کامیابی کی شرح صرف 12% ہے؟

SWE-Bench Mobile

شیاؤ ہونگ شو ٹیم نے ایک نیا بینچ مارک ٹیسٹ SWE-Bench Mobile جاری کیا ہے، جو خاص طور پر حقیقی موبائل ایپلیکیشن کوڈ لائبریریوں پر AI ایجنٹ کی کارکردگی کا جائزہ لینے کے لیے ہے۔ نتائج فکر انگیز ہیں: یہاں تک کہ اعلیٰ ترین AI ایجنٹ کو بھی، جب کروڑوں صارفین کی ایپ کے کوڈ لائبریری کا سامنا کرنا پڑتا ہے، تو سب سے زیادہ کامیابی کی شرح صرف 12% ہوتی ہے۔

ٹیسٹ کا منظر

SWE-Bench Mobile کیا ہے؟

بینچ مارک کا تعارف

SWE-Bench Mobile موبائل ایپلیکیشن ڈویلپمنٹ کے لیے کوڈ فکسنگ بینچ مارک ٹیسٹ ہے۔ اس میں حقیقی موبائل ایپلیکیشن بگ فکسنگ کے کام شامل ہیں، جس میں AI ایجنٹ سے مندرجہ ذیل کی توقع کی جاتی ہے:

  • پیچیدہ موبائل ایپلیکیشن کوڈ ڈھانچے کو سمجھنا
  • مسئلے کی جڑ کی نشاندہی کرنا
  • درست فکس کوڈ تیار کرنا
  • اس بات کو یقینی بنانا کہ فکسنگ سے کوئی نیا مسئلہ پیدا نہ ہو

ٹیسٹ کے نتائج

ٹیسٹ کے نتائج

ٹیسٹ میں، متعدد اہم AI ایجنٹوں کی کارکردگی درج ذیل ہے:

  • بہترین کارکردگی: 12% کامیابی کی شرح
  • اوسط سطح: 5-8% کامیابی کی شرح
  • کچھ ماڈل: 0% کامیابی کی شرح کے قریب

یہ نتیجہ روایتی SWE-Bench پر کارکردگی سے بہت کم ہے۔

یہ اتنا مشکل کیوں ہے؟

چیلنج کا تجزیہ

موبائل ایپلیکیشن کوڈ لائبریری کی خاصیت اضافی چیلنجز لاتی ہے:

  • ملٹی پلیٹ فارم موافقت: iOS اور Android پلیٹ فارمز دونوں پر بیک وقت غور کرنے کی ضرورت ہے
  • پیچیدہ انحصار: موبائل ایپلیکیشن کے ماڈیولز کے درمیان جوڑنے کی ڈگری زیادہ ہے
  • کارکردگی کی رکاوٹیں: موبائل ڈیوائس کے وسائل محدود ہیں، کوڈ کی اصلاح کی ضروریات زیادہ ہیں
  • UI منطق پیچیدہ: انٹرفیس انٹرایکشن کوڈ کا جامد تجزیہ کرنا مشکل ہے

روایتی بینچ مارک سے موازنہ

موازنہ تجزیہ

روایتی SWE-Bench کے مقابلے میں، Mobile ورژن کی مشکل میں نمایاں اضافہ ہوا ہے:

  • کوڈ لائبریری کا سائز بڑا ہے
  • بزنس لاجک زیادہ پیچیدہ ہے
  • ٹیسٹ کیسز پاس کرنا زیادہ مشکل ہے
  • سیاق و سباق کی ونڈو کی ضروریات زیادہ ہیں

صنعت کی اہمیت

صنعت کی اہمیت

یہ بینچ مارک ٹیسٹ حقیقی صنعتی منظرناموں میں AI ایجنٹ کی حدود کو ظاہر کرتا ہے۔ اگرچہ کوڈ جنریشن کے معاملے میں AI نے تیزی سے ترقی کی ہے، لیکن بڑے، پیچیدہ حقیقی منصوبوں سے نمٹنے کے لیے ابھی بھی ایک لمبا راستہ طے کرنا باقی ہے۔

مستقبل کا منظرنامہ

مستقبل کا منظرنامہ

SWE-Bench Mobile کا اجراء AI پروگرامنگ ٹولز کی ترقی کے لیے ایک اہم پیمانہ فراہم کرتا ہے۔ یہ ہمیں یاد دلاتا ہے:

  • AI معاون پروگرامنگ کو اب بھی انسانی نگرانی کی ضرورت ہے
  • پیچیدہ منصوبوں کو زیادہ ذہین سیاق و سباق کی سمجھ کی ضرورت ہے
  • ماڈل کی صلاحیت میں بہتری کی بہت گنجائش ہے

وسائل کے لنکس

وسائل

Published in Technology

You Might Also Like

2026 کے ٹاپ 10 AI ٹولز کی سفارش: مصنوعی ذہانت کی حقیقی صلاحیت کو آزاد کرناTechnology

2026 کے ٹاپ 10 AI ٹولز کی سفارش: مصنوعی ذہانت کی حقیقی صلاحیت کو آزاد کرنا

2026 کے ٹاپ 10 AI ٹولز کی سفارش: مصنوعی ذہانت کی حقیقی صلاحیت کو آزاد کرنا آج کی تیز رفتار ٹیکنالوجی کی ترقی میں، مصنوعی...

2026 سال کے ٹاپ 10 AWS ٹولز اور وسائل کی سفارشTechnology

2026 سال کے ٹاپ 10 AWS ٹولز اور وسائل کی سفارش

2026 سال کے ٹاپ 10 AWS ٹولز اور وسائل کی سفارش تیزی سے ترقی پذیر کلاؤڈ کمپیوٹنگ کے میدان میں، Amazon Web Services (AWS) ...

2026 کے ٹاپ 10 ابتدائی کاروبار کی کامیابی کے راز: آپ کو مقابلے میں نمایاں کرنے میں مدد کریںTechnology

2026 کے ٹاپ 10 ابتدائی کاروبار کی کامیابی کے راز: آپ کو مقابلے میں نمایاں کرنے میں مدد کریں

2026 کے ٹاپ 10 ابتدائی کاروبار کی کامیابی کے راز: آپ کو مقابلے میں نمایاں کرنے میں مدد کریں اس تیزی سے بدلتے ہوئے کاروبا...

2026 کے ٹاپ 10 AI ٹولز کی سفارش: کام کی کارکردگی بڑھانے کے بہترین انتخابTechnology

2026 کے ٹاپ 10 AI ٹولز کی سفارش: کام کی کارکردگی بڑھانے کے بہترین انتخاب

2026 کے ٹاپ 10 AI ٹولز کی سفارش: کام کی کارکردگی بڑھانے کے بہترین انتخاب آج کے تیز رفتار ترقی پذیر مصنوعی ذہانت کے دور م...

Claude Code ٹرمینل، جو iTerm2 سے بہتر ہے، پیدا ہوا!Technology

Claude Code ٹرمینل، جو iTerm2 سے بہتر ہے، پیدا ہوا!

# Claude Code ٹرمینل، جو iTerm2 سے بہتر ہے، پیدا ہوا! سب کو سلام، میں Guide ہوں۔ آج ہم چند ایسے "جدید ٹرمینلز" کے بارے ...

2026 کے ٹاپ 10 AI پروگرامنگ ٹولز کی سفارش: ترقی کی کارکردگی کو بڑھانے کے بہترین معاونTechnology

2026 کے ٹاپ 10 AI پروگرامنگ ٹولز کی سفارش: ترقی کی کارکردگی کو بڑھانے کے بہترین معاون

# 2026 کے ٹاپ 10 AI پروگرامنگ ٹولز کی سفارش: ترقی کی کارکردگی کو بڑھانے کے بہترین معاون جبکہ مصنوعی ذہانت کی ٹیکنالوجی ...