ಸಣ್ಣ ಕೆಂಪು ಪುಸ್ತಕ SWE-Bench ಮೊಬೈಲ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ: AI ಏಜೆಂಟ್ ಕೋಟ್ಯಂತರ ಬಳಕೆದಾರರ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯನ್ನು ಎದುರಿಸಿದಾಗ, ಗರಿಷ್ಠ ಉತ್ತೀರ್ಣ ದರ ಕೇವಲ 12%?

2/15/2026
2 min read

ಸಣ್ಣ ಕೆಂಪು ಪುಸ್ತಕ SWE-Bench ಮೊಬೈಲ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ: AI ಏಜೆಂಟ್ ಕೋಟ್ಯಂತರ ಬಳಕೆದಾರರ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯನ್ನು ಎದುರಿಸಿದಾಗ, ಗರಿಷ್ಠ ಉತ್ತೀರ್ಣ ದರ ಕೇವಲ 12%?

SWE-Bench Mobile

ಸಣ್ಣ ಕೆಂಪು ಪುಸ್ತಕ ತಂಡವು ಹೊಸ ಮಾನದಂಡ ಪರೀಕ್ಷೆ SWE-Bench ಮೊಬೈಲ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ, ಇದು ನೈಜ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯಲ್ಲಿ AI ಏಜೆಂಟ್‌ನ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ನಿರ್ಣಯಿಸಲು ವಿಶೇಷವಾಗಿದೆ. ಫಲಿತಾಂಶಗಳು ಆಳವಾಗಿ ಚಿಂತಿಸುವಂತೆ ಮಾಡುತ್ತವೆ: ಉನ್ನತ AI ಏಜೆಂಟ್ ಸಹ ಕೋಟ್ಯಂತರ ಬಳಕೆದಾರರ ಅಪ್ಲಿಕೇಶನ್‌ನ ಕೋಡ್ ಲೈಬ್ರರಿಯನ್ನು ಎದುರಿಸಿದಾಗ, ಗರಿಷ್ಠ ಉತ್ತೀರ್ಣ ದರ ಕೇವಲ 12% ಮಾತ್ರ.

ಪರೀಕ್ಷಾ ಸನ್ನಿವೇಶ

SWE-Bench ಮೊಬೈಲ್ ಎಂದರೇನು?

ಮಾನದಂಡ ಪರಿಚಯ

SWE-Bench ಮೊಬೈಲ್ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಅಭಿವೃದ್ಧಿಗಾಗಿ ಕೋಡ್ ದುರಸ್ತಿ ಮಾನದಂಡ ಪರೀಕ್ಷೆಯಾಗಿದೆ. ಇದು ನೈಜ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ದೋಷ ದುರಸ್ತಿ ಕಾರ್ಯಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, AI ಏಜೆಂಟ್ ಹೀಗೆ ಮಾಡಲು ಅಗತ್ಯವಿದೆ:

  • ಸಂಕೀರ್ಣ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ರಚನೆಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು
  • ಸಮಸ್ಯೆಯ ಮೂಲವನ್ನು ಗುರುತಿಸುವುದು
  • ಸರಿಯಾದ ದುರಸ್ತಿ ಕೋಡ್ ಅನ್ನು ರಚಿಸುವುದು
  • ದುರಸ್ತಿ ಹೊಸ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಚಯಿಸುವುದಿಲ್ಲ ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳುವುದು

ಪರೀಕ್ಷಾ ಫಲಿತಾಂಶಗಳು

ಪರೀಕ್ಷಾ ಫಲಿತಾಂಶಗಳು

ಪರೀಕ್ಷೆಯಲ್ಲಿ, ಅನೇಕ ಮುಖ್ಯವಾಹಿನಿಯ AI ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆ ಈ ಕೆಳಗಿನಂತಿತ್ತು:

  • ಉತ್ತಮ ಕಾರ್ಯಕ್ಷಮತೆ: 12% ಉತ್ತೀರ್ಣ ದರ
  • ಸರಾಸರಿ ಮಟ್ಟ: 5-8% ಉತ್ತೀರ್ಣ ದರ
  • ಕೆಲವು ಮಾದರಿಗಳು: 0% ಉತ್ತೀರ್ಣ ದರದ ಹತ್ತಿರ

ಈ ಫಲಿತಾಂಶವು ಸಾಂಪ್ರದಾಯಿಕ SWE-Bench ನಲ್ಲಿನ ಕಾರ್ಯಕ್ಷಮತೆಗಿಂತ ಬಹಳ ಕಡಿಮೆಯಾಗಿದೆ.

ಇದು ಏಕೆ ತುಂಬಾ ಕಷ್ಟ?

ಸವಾಲು ವಿಶ್ಲೇಷಣೆ

ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯ ವಿಶೇಷತೆಯು ಹೆಚ್ಚುವರಿ ಸವಾಲುಗಳನ್ನು ತರುತ್ತದೆ:

  • ಬಹು-ಅಂತ್ಯದ ಹೊಂದಾಣಿಕೆ: iOS ಮತ್ತು Android ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ಗಳನ್ನು ಏಕಕಾಲದಲ್ಲಿ ಪರಿಗಣಿಸಬೇಕು
  • ಸಂಕೀರ್ಣ ಅವಲಂಬನೆಗಳು: ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್‌ಗಳ ಮಾಡ್ಯೂಲ್‌ಗಳ ನಡುವಿನ ಜೋಡಣೆ ಹೆಚ್ಚಾಗಿದೆ
  • ಕಾರ್ಯಕ್ಷಮತೆಯ ನಿರ್ಬಂಧಗಳು: ಮೊಬೈಲ್ ಸಾಧನ ಸಂಪನ್ಮೂಲಗಳು ಸೀಮಿತವಾಗಿವೆ, ಕೋಡ್ ಆಪ್ಟಿಮೈಸೇಶನ್‌ಗೆ ಹೆಚ್ಚಿನ ಬೇಡಿಕೆಯಿದೆ
  • UI ತರ್ಕ ಸಂಕೀರ್ಣವಾಗಿದೆ: ಇಂಟರ್ಫೇಸ್ ಸಂವಹನ ಕೋಡ್ ಅನ್ನು ಸ್ಥಿರವಾಗಿ ವಿಶ್ಲೇಷಿಸಲು ಕಷ್ಟ

ಸಾಂಪ್ರದಾಯಿಕ ಮಾನದಂಡಗಳೊಂದಿಗೆ ಹೋಲಿಕೆ

ಹೋಲಿಕೆ ವಿಶ್ಲೇಷಣೆ

ಸಾಂಪ್ರದಾಯಿಕ SWE-Bench ಗೆ ಹೋಲಿಸಿದರೆ, ಮೊಬೈಲ್ ಆವೃತ್ತಿಯ ತೊಂದರೆ ಗಮನಾರ್ಹವಾಗಿ ಹೆಚ್ಚಾಗಿದೆ:

  • ಕೋಡ್ ಲೈಬ್ರರಿ ದೊಡ್ಡದಾಗಿದೆ
  • ವ್ಯವಹಾರ ತರ್ಕ ಹೆಚ್ಚು ಸಂಕೀರ್ಣವಾಗಿದೆ
  • ಪರೀಕ್ಷಾ ಪ್ರಕರಣಗಳನ್ನು ಪಾಸ್ ಮಾಡಲು ಕಷ್ಟ
  • ಸಂದರ್ಭ ವಿಂಡೋಗೆ ಹೆಚ್ಚಿನ ಅಗತ್ಯವಿದೆ

ಉದ್ಯಮದ ಮಹತ್ವ

ಉದ್ಯಮದ ಮಹತ್ವ

ಈ ಮಾನದಂಡ ಪರೀಕ್ಷೆಯು ನೈಜ ಕೈಗಾರಿಕಾ ಸನ್ನಿವೇಶಗಳಲ್ಲಿ AI ಏಜೆಂಟ್‌ನ ಮಿತಿಗಳನ್ನು ಬಹಿರಂಗಪಡಿಸುತ್ತದೆ. ಕೋಡ್ ಉತ್ಪಾದನೆಯಲ್ಲಿ AI ವೇಗವಾಗಿ ಪ್ರಗತಿ ಸಾಧಿಸುತ್ತಿದ್ದರೂ, ದೊಡ್ಡ, ಸಂಕೀರ್ಣ ನೈಜ ಯೋಜನೆಗಳನ್ನು ನಿರ್ವಹಿಸುವಾಗ, ಅದು ಇನ್ನೂ ಬಹಳ ದೂರ ಸಾಗಬೇಕಿದೆ.

ಭವಿಷ್ಯದ ನಿರೀಕ್ಷೆಗಳು

ಭವಿಷ್ಯದ ನಿರೀಕ್ಷೆಗಳು

SWE-Bench ಮೊಬೈಲ್ ಬಿಡುಗಡೆಯು AI ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಪರಿಕರಗಳ ಅಭಿವೃದ್ಧಿಗೆ ಪ್ರಮುಖ ಅಳತೆಗೋಲನ್ನು ಒದಗಿಸುತ್ತದೆ. ಇದು ನಮಗೆ ನೆನಪಿಸುತ್ತದೆ:

  • AI ನೆರವಿನ ಪ್ರೋಗ್ರಾಮಿಂಗ್‌ಗೆ ಇನ್ನೂ ಮಾನವ ಮೇಲ್ವಿಚಾರಣೆ ಅಗತ್ಯವಿದೆ
  • ಸಂಕೀರ್ಣ ಯೋಜನೆಗಳಿಗೆ ಹೆಚ್ಚು ಬುದ್ಧಿವಂತ ಸಂದರ್ಭದ ತಿಳುವಳಿಕೆ ಅಗತ್ಯವಿದೆ
  • ಮಾದರಿ ಸಾಮರ್ಥ್ಯವು ಸುಧಾರಣೆಗೆ ಹೆಚ್ಚಿನ ಅವಕಾಶವನ್ನು ಹೊಂದಿದೆ

ಸಂಪನ್ಮೂಲ ಲಿಂಕ್‌ಗಳು

ಸಂಪನ್ಮೂಲ

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy ಪರಿಷ್ಕರಣೆ ಮಾರ್ಗದರ್ಶಿ: ಹೇಗೆ ಹೊಳೆಯುವ ಪುರಾಣ ಮಟ್ಟದ ಪೆಟ್ನನ್ನು ಪಡೆಯುವುದು

Claude Code Buddy ಪರಿಷ್ಕರಣೆ ಮಾರ್ಗದರ್ಶಿ: ಹೇಗೆ ಹೊಳೆಯುವ ಪುರಾಣ ಮಟ್ಟದ ಪೆಟ್ನನ್ನು ಪಡೆಯುವುದು 2026年4月1日,Anthropic 在 Claude Code 2...

Obsidian Defuddle ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿತು, Obsidian ವೆಬ್ ಕ್ಲಿಪ್ಪರ್ ಅನ್ನು ಹೊಸ ಎತ್ತರಕ್ಕೆ ತಂದುಕೊಂಡಿತುTechnology

Obsidian Defuddle ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿತು, Obsidian ವೆಬ್ ಕ್ಲಿಪ್ಪರ್ ಅನ್ನು ಹೊಸ ಎತ್ತರಕ್ಕೆ ತಂದುಕೊಂಡಿತು

Obsidian Defuddle ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿತು, Obsidian ವೆಬ್ ಕ್ಲಿಪ್ಪರ್ ಅನ್ನು ಹೊಸ ಎತ್ತರಕ್ಕೆ ತಂದುಕೊಂಡಿತು ನಾನು ಸದಾ Obsidian ನ ಮೂಲ...

OpenAI ತಕ್ಷಣವೇ "ಮೂವರು ಒಂದಾಗ" ಅನ್ನು ಘೋಷಿಸಿದೆ: ಬ್ರೌಸರ್ + ಪ್ರೋಗ್ರಾಮಿಂಗ್ + ChatGPT ವಿಲೀನ, ಒಳಗೊಮ್ಮಲು ಕಳೆದ ವರ್ಷ ತಪ್ಪಾದುದನ್ನು ಒಪ್ಪಿದೆTechnology

OpenAI ತಕ್ಷಣವೇ "ಮೂವರು ಒಂದಾಗ" ಅನ್ನು ಘೋಷಿಸಿದೆ: ಬ್ರೌಸರ್ + ಪ್ರೋಗ್ರಾಮಿಂಗ್ + ChatGPT ವಿಲೀನ, ಒಳಗೊಮ್ಮಲು ಕಳೆದ ವರ್ಷ ತಪ್ಪಾದುದನ್ನು ಒಪ್ಪಿದೆ

OpenAI ತಕ್ಷಣವೇ "ಮೂವರು ಒಂದಾಗ" ಅನ್ನು ಘೋಷಿಸಿದೆ: ಬ್ರೌಸರ್ + ಪ್ರೋಗ್ರಾಮಿಂಗ್ + ChatGPT ವಿಲೀನ, ಒಳಗೊಮ್ಮಲು ಕಳೆದ ವರ್ಷ ತಪ್ಪಾದುದನ್ನು ಒ...

2026, ನಿಮ್ಮನ್ನು 'ಆತ್ಮನಿಯಂತ್ರಣ' ಮಾಡಲು ಒತ್ತಿಸುವುದಿಲ್ಲ! ಈ 8 ಚಿಕ್ಕ ವಿಷಯಗಳನ್ನು ಉತ್ತಮವಾಗಿ ನಿರ್ವಹಿಸಿ, ಆರೋಗ್ಯ ಸ್ವಾಭಾವಿಕವಾಗಿ ಬರುವುದೆಂದುHealth

2026, ನಿಮ್ಮನ್ನು 'ಆತ್ಮನಿಯಂತ್ರಣ' ಮಾಡಲು ಒತ್ತಿಸುವುದಿಲ್ಲ! ಈ 8 ಚಿಕ್ಕ ವಿಷಯಗಳನ್ನು ಉತ್ತಮವಾಗಿ ನಿರ್ವಹಿಸಿ, ಆರೋಗ್ಯ ಸ್ವಾಭಾವಿಕವಾಗಿ ಬರುವುದೆಂದು

2026, ನಿಮ್ಮನ್ನು 'ಆತ್ಮನಿಯಂತ್ರಣ' ಮಾಡಲು ಒತ್ತಿಸುವುದಿಲ್ಲ! ಈ 8 ಚಿಕ್ಕ ವಿಷಯಗಳನ್ನು ಉತ್ತಮವಾಗಿ ನಿರ್ವಹಿಸಿ, ಆರೋಗ್ಯ ಸ್ವಾಭಾವಿಕವಾಗಿ ಬರುವ...

ಅವರು ತೀವ್ರವಾಗಿ ತೂಕ ಕಡಿಮೆ ಮಾಡಲು ಪ್ರಯತ್ನಿಸುತ್ತಿರುವ ತಾಯಿಗಳು, ಖಂಡಿತವಾಗಿ ಇಲ್ಲಿ ಬಿದ್ದಿದ್ದಾರೆHealth

ಅವರು ತೀವ್ರವಾಗಿ ತೂಕ ಕಡಿಮೆ ಮಾಡಲು ಪ್ರಯತ್ನಿಸುತ್ತಿರುವ ತಾಯಿಗಳು, ಖಂಡಿತವಾಗಿ ಇಲ್ಲಿ ಬಿದ್ದಿದ್ದಾರೆ

ಅವರು ತೀವ್ರವಾಗಿ ತೂಕ ಕಡಿಮೆ ಮಾಡಲು ಪ್ರಯತ್ನಿಸುತ್ತಿರುವ ತಾಯಿಗಳು, ಖಂಡಿತವಾಗಿ ಇಲ್ಲಿ ಬಿದ್ದಿದ್ದಾರೆ ಮಾರ್ಚ್ ಅರ್ಧವನ್ನು ಕಳೆದಿದೆ, ನಿಮ್ಮ ...

📝
Technology

AI Browser 24 ಗಂಟೆಗಳ ಸ್ಥಿರ ಕಾರ್ಯಾಚರಣೆ ಮಾರ್ಗದರ್ಶಿ

AI Browser 24 ಗಂಟೆಗಳ ಸ್ಥಿರ ಕಾರ್ಯಾಚರಣೆ ಮಾರ್ಗದರ್ಶಿ ಈ ಪಾಠವು ಸ್ಥಿರ, ದೀರ್ಘಕಾಲಿಕ ಕಾರ್ಯಾಚರಣೆಯ AI ಬ್ರೌಸರ್ ಪರಿಸರವನ್ನು ಹೇಗೆ ಸ್ಥಾಪಿ...