Xiaohongshu কর্তৃক SWE-Bench Mobile প্রকাশ: যখন একটি AI Agent কোটি কোটি ব্যবহারকারীর App কোডবেসের সম্মুখীন হয়, তখন সর্বোচ্চ সাফল্যের হার মাত্র 12%?

2/15/2026
2 min read

Xiaohongshu কর্তৃক SWE-Bench Mobile প্রকাশ: যখন একটি AI Agent কোটি কোটি ব্যবহারকারীর App কোডবেসের সম্মুখীন হয়, তখন সর্বোচ্চ সাফল্যের হার মাত্র 12%?

SWE-Bench Mobile

Xiaohongshu টিম একটি নতুন বেঞ্চমার্ক SWE-Bench Mobile প্রকাশ করেছে, যা বিশেষভাবে বাস্তব মোবাইল অ্যাপ্লিকেশন কোডবেসে AI Agent-এর কর্মক্ষমতা মূল্যায়নের জন্য তৈরি। ফলাফল গভীর চিন্তার উদ্রেক করে: এমনকি শীর্ষস্থানীয় AI Agent-ও যখন কোটি কোটি ব্যবহারকারীর App-এর কোডবেসের সম্মুখীন হয়, তখন সর্বোচ্চ সাফল্যের হার মাত্র 12%।

পরীক্ষার দৃশ্য

SWE-Bench Mobile কী?

বেঞ্চমার্ক পরিচিতি

SWE-Bench Mobile হল মোবাইল অ্যাপ্লিকেশন ডেভেলপমেন্টের জন্য একটি কোড ফিক্সিং বেঞ্চমার্ক। এতে বাস্তব মোবাইল অ্যাপ্লিকেশন বাগ ফিক্সিংয়ের কাজ অন্তর্ভুক্ত রয়েছে, যার জন্য AI Agent-এর প্রয়োজন:

  • জটিল মোবাইল অ্যাপ্লিকেশন কোড কাঠামো বোঝা
  • সমস্যার মূল কারণ সনাক্ত করা
  • সঠিক ফিক্স কোড তৈরি করা
  • নিশ্চিত করা যে ফিক্সটি নতুন সমস্যা তৈরি করবে না

পরীক্ষার ফলাফল

পরীক্ষার ফলাফল

পরীক্ষায়, একাধিক প্রধান AI Agent-এর কর্মক্ষমতা নিম্নরূপ:

  • সেরা কর্মক্ষমতা: 12% সাফল্যের হার
  • গড় মান: 5-8% সাফল্যের হার
  • কিছু মডেল: প্রায় 0% সাফল্যের হার

এই ফলাফল ঐতিহ্যবাহী SWE-Bench-এর তুলনায় অনেক কম।

এটা এত কঠিন কেন?

চ্যালেঞ্জ বিশ্লেষণ

মোবাইল অ্যাপ্লিকেশন কোডবেসের বিশেষত্ব অতিরিক্ত চ্যালেঞ্জ নিয়ে আসে:

  • মাল্টি-প্ল্যাটফর্ম অ্যাডাপটেশন: একই সাথে iOS এবং Android প্ল্যাটফর্ম বিবেচনা করতে হয়
  • জটিল নির্ভরতা: মোবাইল অ্যাপ্লিকেশনের মডিউলগুলির মধ্যে কাপলিং বেশি
  • কর্মক্ষমতা সীমাবদ্ধতা: মোবাইল ডিভাইসের সীমিত সম্পদ রয়েছে, তাই কোড অপ্টিমাইজেশনের প্রয়োজনীয়তা বেশি
  • UI লজিকের জটিলতা: ইন্টারফেস ইন্টারঅ্যাকশন কোড স্ট্যাটিক্যালি বিশ্লেষণ করা কঠিন

ঐতিহ্যবাহী বেঞ্চমার্কের সাথে তুলনা

তুলনামূলক বিশ্লেষণ

ঐতিহ্যবাহী SWE-Bench-এর তুলনায়, Mobile সংস্করণের অসুবিধা উল্লেখযোগ্যভাবে বেশি:

  • কোডবেসের আকার বড়
  • ব্যবসার লজিক আরও জটিল
  • পরীক্ষার ব্যবহারের ক্ষেত্রে উত্তীর্ণ হওয়া কঠিন
  • কনটেক্সট উইন্ডোর প্রয়োজনীয়তা বেশি

শিল্পের তাৎপর্য

শিল্পের তাৎপর্য

এই বেঞ্চমার্কটি বাস্তব শিল্প পরিস্থিতিতে AI Agent-এর সীমাবদ্ধতা প্রকাশ করে। কোড জেনারেশনের ক্ষেত্রে AI দ্রুত উন্নতি করলেও, বৃহৎ, জটিল বাস্তব প্রকল্পগুলি পরিচালনা করার ক্ষেত্রে এখনও অনেক পথ বাকি।

ভবিষ্যতের প্রত্যাশা

ভবিষ্যতের প্রত্যাশা

SWE-Bench Mobile-এর প্রকাশ AI প্রোগ্রামিং সরঞ্জামগুলির বিকাশের জন্য একটি গুরুত্বপূর্ণ পরিমাপক প্রদান করে। এটি আমাদের মনে করিয়ে দেয়:

  • AI-সহায়ক প্রোগ্রামিংয়ের জন্য এখনও মানুষের তত্ত্বাবধান প্রয়োজন
  • জটিল প্রকল্পের জন্য আরও বুদ্ধিমান কনটেক্সট বোঝার প্রয়োজন
  • মডেলের ক্ষমতার উন্নতির জন্য এখনও অনেক সুযোগ রয়েছে

রিসোর্স লিঙ্ক

রিসোর্স

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy পরিবর্তন নির্দেশিকা: কিভাবে ফ্ল্যাশ লিজেন্ডারি পেট পেতে হয়

Claude Code Buddy পরিবর্তন নির্দেশিকা: কিভাবে ফ্ল্যাশ লিজেন্ডারি পেট পেতে হয় 2026 সালের ১ এপ্রিল, Anthropic Claude Code...

Obsidian Defuddle চালু করেছে, Obsidian Web Clipper কে একটি নতুন উচ্চতায় নিয়ে গেছেTechnology

Obsidian Defuddle চালু করেছে, Obsidian Web Clipper কে একটি নতুন উচ্চতায় নিয়ে গেছে

Obsidian Defuddle চালু করেছে, Obsidian Web Clipper কে একটি নতুন উচ্চতায় নিয়ে গেছে আমি সবসময় Obsidian এর মূল ধারণা পছ...

OpenAI হঠাৎ ঘোষণা করেছে "তিন-এক": ব্রাউজার + প্রোগ্রামিং + ChatGPT একত্রিত, অভ্যন্তরীণভাবে স্বীকার করেছে গত এক বছরে ভুল পথে গিয়েছিলTechnology

OpenAI হঠাৎ ঘোষণা করেছে "তিন-এক": ব্রাউজার + প্রোগ্রামিং + ChatGPT একত্রিত, অভ্যন্তরীণভাবে স্বীকার করেছে গত এক বছরে ভুল পথে গিয়েছিল

OpenAI হঠাৎ ঘোষণা করেছে "তিন-এক": ব্রাউজার + প্রোগ্রামিং + ChatGPT একত্রিত, অভ্যন্তরীণভাবে স্বীকার করেছে গত এক বছরে ভুল ...

2026, নিজেকে 'শৃঙ্খলা' করতে আর চাপ দেবেন না! এই 8টি ছোট কাজ করুন, স্বাস্থ্য স্বাভাবিকভাবেই আসবেHealth

2026, নিজেকে 'শৃঙ্খলা' করতে আর চাপ দেবেন না! এই 8টি ছোট কাজ করুন, স্বাস্থ্য স্বাভাবিকভাবেই আসবে

2026, নিজেকে 'শৃঙ্খলা' করতে আর চাপ দেবেন না! এই 8টি ছোট কাজ করুন, স্বাস্থ্য স্বাভাবিকভাবেই আসবে নতুন বছরের শুরু, গত বছর...

যে সব মায়েরা কঠোর পরিশ্রম করেও ওজন কমাতে পারছেন না, তারা এখানে পড়ে যাচ্ছেনHealth

যে সব মায়েরা কঠোর পরিশ্রম করেও ওজন কমাতে পারছেন না, তারা এখানে পড়ে যাচ্ছেন

যে সব মায়েরা কঠোর পরিশ্রম করেও ওজন কমাতে পারছেন না, তারা এখানে পড়ে যাচ্ছেন মার্চ মাসের অর্ধেক পেরিয়ে গেছে, আপনার ওজন...

📝
Technology

AI Browser 24 ঘণ্টা স্থিতিশীল চলাচলের নির্দেশিকা

AI Browser 24 ঘণ্টা স্থিতিশীল চলাচলের নির্দেশিকা এই টিউটোরিয়ালটি একটি স্থিতিশীল, দীর্ঘমেয়াদী AI ব্রাউজার পরিবেশ কিভাবে...