ಸಣ್ಣ ಕೆಂಪು ಪುಸ್ತಕ SWE-Bench ಮೊಬೈಲ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ: AI ಏಜೆಂಟ್ ಕೋಟ್ಯಂತರ ಬಳಕೆದಾರರ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯನ್ನು ಎದುರಿಸಿದಾಗ, ಗರಿಷ್ಠ ಉತ್ತೀರ್ಣ ದರ ಕೇವಲ 12%?

2/15/2026
2 min read

ಸಣ್ಣ ಕೆಂಪು ಪುಸ್ತಕ SWE-Bench ಮೊಬೈಲ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ: AI ಏಜೆಂಟ್ ಕೋಟ್ಯಂತರ ಬಳಕೆದಾರರ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯನ್ನು ಎದುರಿಸಿದಾಗ, ಗರಿಷ್ಠ ಉತ್ತೀರ್ಣ ದರ ಕೇವಲ 12%?

SWE-Bench Mobile

ಸಣ್ಣ ಕೆಂಪು ಪುಸ್ತಕ ತಂಡವು ಹೊಸ ಮಾನದಂಡ ಪರೀಕ್ಷೆ SWE-Bench ಮೊಬೈಲ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ, ಇದು ನೈಜ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯಲ್ಲಿ AI ಏಜೆಂಟ್‌ನ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ನಿರ್ಣಯಿಸಲು ವಿಶೇಷವಾಗಿದೆ. ಫಲಿತಾಂಶಗಳು ಆಳವಾಗಿ ಚಿಂತಿಸುವಂತೆ ಮಾಡುತ್ತವೆ: ಉನ್ನತ AI ಏಜೆಂಟ್ ಸಹ ಕೋಟ್ಯಂತರ ಬಳಕೆದಾರರ ಅಪ್ಲಿಕೇಶನ್‌ನ ಕೋಡ್ ಲೈಬ್ರರಿಯನ್ನು ಎದುರಿಸಿದಾಗ, ಗರಿಷ್ಠ ಉತ್ತೀರ್ಣ ದರ ಕೇವಲ 12% ಮಾತ್ರ.

ಪರೀಕ್ಷಾ ಸನ್ನಿವೇಶ

SWE-Bench ಮೊಬೈಲ್ ಎಂದರೇನು?

ಮಾನದಂಡ ಪರಿಚಯ

SWE-Bench ಮೊಬೈಲ್ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಅಭಿವೃದ್ಧಿಗಾಗಿ ಕೋಡ್ ದುರಸ್ತಿ ಮಾನದಂಡ ಪರೀಕ್ಷೆಯಾಗಿದೆ. ಇದು ನೈಜ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ದೋಷ ದುರಸ್ತಿ ಕಾರ್ಯಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, AI ಏಜೆಂಟ್ ಹೀಗೆ ಮಾಡಲು ಅಗತ್ಯವಿದೆ:

  • ಸಂಕೀರ್ಣ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ರಚನೆಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು
  • ಸಮಸ್ಯೆಯ ಮೂಲವನ್ನು ಗುರುತಿಸುವುದು
  • ಸರಿಯಾದ ದುರಸ್ತಿ ಕೋಡ್ ಅನ್ನು ರಚಿಸುವುದು
  • ದುರಸ್ತಿ ಹೊಸ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಚಯಿಸುವುದಿಲ್ಲ ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳುವುದು

ಪರೀಕ್ಷಾ ಫಲಿತಾಂಶಗಳು

ಪರೀಕ್ಷಾ ಫಲಿತಾಂಶಗಳು

ಪರೀಕ್ಷೆಯಲ್ಲಿ, ಅನೇಕ ಮುಖ್ಯವಾಹಿನಿಯ AI ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆ ಈ ಕೆಳಗಿನಂತಿತ್ತು:

  • ಉತ್ತಮ ಕಾರ್ಯಕ್ಷಮತೆ: 12% ಉತ್ತೀರ್ಣ ದರ
  • ಸರಾಸರಿ ಮಟ್ಟ: 5-8% ಉತ್ತೀರ್ಣ ದರ
  • ಕೆಲವು ಮಾದರಿಗಳು: 0% ಉತ್ತೀರ್ಣ ದರದ ಹತ್ತಿರ

ಈ ಫಲಿತಾಂಶವು ಸಾಂಪ್ರದಾಯಿಕ SWE-Bench ನಲ್ಲಿನ ಕಾರ್ಯಕ್ಷಮತೆಗಿಂತ ಬಹಳ ಕಡಿಮೆಯಾಗಿದೆ.

ಇದು ಏಕೆ ತುಂಬಾ ಕಷ್ಟ?

ಸವಾಲು ವಿಶ್ಲೇಷಣೆ

ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯ ವಿಶೇಷತೆಯು ಹೆಚ್ಚುವರಿ ಸವಾಲುಗಳನ್ನು ತರುತ್ತದೆ:

  • ಬಹು-ಅಂತ್ಯದ ಹೊಂದಾಣಿಕೆ: iOS ಮತ್ತು Android ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ಗಳನ್ನು ಏಕಕಾಲದಲ್ಲಿ ಪರಿಗಣಿಸಬೇಕು
  • ಸಂಕೀರ್ಣ ಅವಲಂಬನೆಗಳು: ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್‌ಗಳ ಮಾಡ್ಯೂಲ್‌ಗಳ ನಡುವಿನ ಜೋಡಣೆ ಹೆಚ್ಚಾಗಿದೆ
  • ಕಾರ್ಯಕ್ಷಮತೆಯ ನಿರ್ಬಂಧಗಳು: ಮೊಬೈಲ್ ಸಾಧನ ಸಂಪನ್ಮೂಲಗಳು ಸೀಮಿತವಾಗಿವೆ, ಕೋಡ್ ಆಪ್ಟಿಮೈಸೇಶನ್‌ಗೆ ಹೆಚ್ಚಿನ ಬೇಡಿಕೆಯಿದೆ
  • UI ತರ್ಕ ಸಂಕೀರ್ಣವಾಗಿದೆ: ಇಂಟರ್ಫೇಸ್ ಸಂವಹನ ಕೋಡ್ ಅನ್ನು ಸ್ಥಿರವಾಗಿ ವಿಶ್ಲೇಷಿಸಲು ಕಷ್ಟ

ಸಾಂಪ್ರದಾಯಿಕ ಮಾನದಂಡಗಳೊಂದಿಗೆ ಹೋಲಿಕೆ

ಹೋಲಿಕೆ ವಿಶ್ಲೇಷಣೆ

ಸಾಂಪ್ರದಾಯಿಕ SWE-Bench ಗೆ ಹೋಲಿಸಿದರೆ, ಮೊಬೈಲ್ ಆವೃತ್ತಿಯ ತೊಂದರೆ ಗಮನಾರ್ಹವಾಗಿ ಹೆಚ್ಚಾಗಿದೆ:

  • ಕೋಡ್ ಲೈಬ್ರರಿ ದೊಡ್ಡದಾಗಿದೆ
  • ವ್ಯವಹಾರ ತರ್ಕ ಹೆಚ್ಚು ಸಂಕೀರ್ಣವಾಗಿದೆ
  • ಪರೀಕ್ಷಾ ಪ್ರಕರಣಗಳನ್ನು ಪಾಸ್ ಮಾಡಲು ಕಷ್ಟ
  • ಸಂದರ್ಭ ವಿಂಡೋಗೆ ಹೆಚ್ಚಿನ ಅಗತ್ಯವಿದೆ

ಉದ್ಯಮದ ಮಹತ್ವ

ಉದ್ಯಮದ ಮಹತ್ವ

ಈ ಮಾನದಂಡ ಪರೀಕ್ಷೆಯು ನೈಜ ಕೈಗಾರಿಕಾ ಸನ್ನಿವೇಶಗಳಲ್ಲಿ AI ಏಜೆಂಟ್‌ನ ಮಿತಿಗಳನ್ನು ಬಹಿರಂಗಪಡಿಸುತ್ತದೆ. ಕೋಡ್ ಉತ್ಪಾದನೆಯಲ್ಲಿ AI ವೇಗವಾಗಿ ಪ್ರಗತಿ ಸಾಧಿಸುತ್ತಿದ್ದರೂ, ದೊಡ್ಡ, ಸಂಕೀರ್ಣ ನೈಜ ಯೋಜನೆಗಳನ್ನು ನಿರ್ವಹಿಸುವಾಗ, ಅದು ಇನ್ನೂ ಬಹಳ ದೂರ ಸಾಗಬೇಕಿದೆ.

ಭವಿಷ್ಯದ ನಿರೀಕ್ಷೆಗಳು

ಭವಿಷ್ಯದ ನಿರೀಕ್ಷೆಗಳು

SWE-Bench ಮೊಬೈಲ್ ಬಿಡುಗಡೆಯು AI ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಪರಿಕರಗಳ ಅಭಿವೃದ್ಧಿಗೆ ಪ್ರಮುಖ ಅಳತೆಗೋಲನ್ನು ಒದಗಿಸುತ್ತದೆ. ಇದು ನಮಗೆ ನೆನಪಿಸುತ್ತದೆ:

  • AI ನೆರವಿನ ಪ್ರೋಗ್ರಾಮಿಂಗ್‌ಗೆ ಇನ್ನೂ ಮಾನವ ಮೇಲ್ವಿಚಾರಣೆ ಅಗತ್ಯವಿದೆ
  • ಸಂಕೀರ್ಣ ಯೋಜನೆಗಳಿಗೆ ಹೆಚ್ಚು ಬುದ್ಧಿವಂತ ಸಂದರ್ಭದ ತಿಳುವಳಿಕೆ ಅಗತ್ಯವಿದೆ
  • ಮಾದರಿ ಸಾಮರ್ಥ್ಯವು ಸುಧಾರಣೆಗೆ ಹೆಚ್ಚಿನ ಅವಕಾಶವನ್ನು ಹೊಂದಿದೆ

ಸಂಪನ್ಮೂಲ ಲಿಂಕ್‌ಗಳು

ಸಂಪನ್ಮೂಲ

Published in Technology

You Might Also Like

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力Technology

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力 在技术飞速发展的今天,人工智能(AI)已成为各行各业的热门话题。从医疗健康到金融服务,从教育到娱乐,AI 工具正在改变我们工作的方式。为此,我们整理出2026年值得关注的十大...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 在快速发展的云计算领域,Amazon Web Services (AWS) 一直是领军者,提供丰富的服务和工具,帮助开发者、企业和技术专家在云上有效工作。以下是2026年值得关注的十大AWS工...

2026年 Top 10 初创企业成功秘诀:助你在竞争中崭露头角Technology

2026年 Top 10 初创企业成功秘诀:助你在竞争中崭露头角

2026年 Top 10 初创企业成功秘诀:助你在竞争中崭露头角 ಈ ಕ್ಷಣಿಕವಾಗಿ ಬದಲಾಯಿಸುತ್ತಿರುವ ವ್ಯಾಪಾರ ಪರಿಸರದಲ್ಲಿ, ಪ್ರಾರಂಭಿಕ ಕಂಪನಿಗಳು ಅನೇಕ ಅವಕಾಶಗಳು ಮತ್ತು...

2026年 Top 10 AI工具推荐:提升工作效率的最佳选择Technology

2026年 Top 10 AI工具推荐:提升工作效率的最佳选择

2026年 Top 10 AI工具推荐:提升工作效率的最佳选择 在人工智能迅猛发展的今天,AI工具已成为各行各业提高工作效率、促进创新的重要伙伴。2026年,许多新的AI工具相继涌现,功能各异,能够帮助用户在不同的领域实现突破。本文将为您推...

iTerm2 ಕ್ಕಿಂತ ಉತ್ತಮವಾದ Claude Code ಟರ್ಮಿನಲ್ ಹುಟ್ಟಿಕೊಂಡಿದೆ!Technology

iTerm2 ಕ್ಕಿಂತ ಉತ್ತಮವಾದ Claude Code ಟರ್ಮಿನಲ್ ಹುಟ್ಟಿಕೊಂಡಿದೆ!

# iTerm2 ಕ್ಕಿಂತ ಉತ್ತಮವಾದ Claude Code ಟರ್ಮಿನಲ್ ಹುಟ್ಟಿಕೊಂಡಿದೆ! ಎಲ್ಲರಿಗೂ ನಮಸ್ಕಾರ, ನಾನು Guide. ಇಂದು ನಾನು ನಿಮಗೆ ಕಳೆದ ಎರಡು ವರ...

2026年 Top 10 AI 编程工具推荐:提升开发效率的最佳助手Technology

2026年 Top 10 AI 编程工具推荐:提升开发效率的最佳助手

# 2026年 Top 10 AI 编程工具推荐:提升开发效率的最佳助手 人工智能 ತಂತ್ರಜ್ಞಾನಗಳ ವೇಗವಾದ ಅಭಿವೃದ್ಧಿಯೊಂದಿಗೆ, AI 编程 工具ಗಳು ಅಭಿವೃದ್ಧಿಪಡಿಸುವವರ ಕೆಲಸಕ್ಕೆ ...