ಸಣ್ಣ ಕೆಂಪು ಪುಸ್ತಕ SWE-Bench ಮೊಬೈಲ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ: AI ಏಜೆಂಟ್ ಕೋಟ್ಯಂತರ ಬಳಕೆದಾರರ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯನ್ನು ಎದುರಿಸಿದಾಗ, ಗರಿಷ್ಠ ಉತ್ತೀರ್ಣ ದರ ಕೇವಲ 12%?

SWE-Bench Mobile

ಸಣ್ಣ ಕೆಂಪು ಪುಸ್ತಕ ತಂಡವು ಹೊಸ ಮಾನದಂಡ ಪರೀಕ್ಷೆ SWE-Bench ಮೊಬೈಲ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ, ಇದು ನೈಜ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯಲ್ಲಿ AI ಏಜೆಂಟ್‌ನ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ನಿರ್ಣಯಿಸಲು ವಿಶೇಷವಾಗಿದೆ. ಫಲಿತಾಂಶಗಳು ಆಳವಾಗಿ ಚಿಂತಿಸುವಂತೆ ಮಾಡುತ್ತವೆ: ಉನ್ನತ AI ಏಜೆಂಟ್ ಸಹ ಕೋಟ್ಯಂತರ ಬಳಕೆದಾರರ ಅಪ್ಲಿಕೇಶನ್‌ನ ಕೋಡ್ ಲೈಬ್ರರಿಯನ್ನು ಎದುರಿಸಿದಾಗ, ಗರಿಷ್ಠ ಉತ್ತೀರ್ಣ ದರ ಕೇವಲ 12% ಮಾತ್ರ.

ಪರೀಕ್ಷಾ ಸನ್ನಿವೇಶ

SWE-Bench ಮೊಬೈಲ್ ಎಂದರೇನು?

ಮಾನದಂಡ ಪರಿಚಯ

SWE-Bench ಮೊಬೈಲ್ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಅಭಿವೃದ್ಧಿಗಾಗಿ ಕೋಡ್ ದುರಸ್ತಿ ಮಾನದಂಡ ಪರೀಕ್ಷೆಯಾಗಿದೆ. ಇದು ನೈಜ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ದೋಷ ದುರಸ್ತಿ ಕಾರ್ಯಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, AI ಏಜೆಂಟ್ ಹೀಗೆ ಮಾಡಲು ಅಗತ್ಯವಿದೆ:

ಸಂಕೀರ್ಣ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ರಚನೆಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು
ಸಮಸ್ಯೆಯ ಮೂಲವನ್ನು ಗುರುತಿಸುವುದು
ಸರಿಯಾದ ದುರಸ್ತಿ ಕೋಡ್ ಅನ್ನು ರಚಿಸುವುದು
ದುರಸ್ತಿ ಹೊಸ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಚಯಿಸುವುದಿಲ್ಲ ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳುವುದು

ಪರೀಕ್ಷಾ ಫಲಿತಾಂಶಗಳು

ಪರೀಕ್ಷೆಯಲ್ಲಿ, ಅನೇಕ ಮುಖ್ಯವಾಹಿನಿಯ AI ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆ ಈ ಕೆಳಗಿನಂತಿತ್ತು:

ಉತ್ತಮ ಕಾರ್ಯಕ್ಷಮತೆ: 12% ಉತ್ತೀರ್ಣ ದರ
ಸರಾಸರಿ ಮಟ್ಟ: 5-8% ಉತ್ತೀರ್ಣ ದರ
ಕೆಲವು ಮಾದರಿಗಳು: 0% ಉತ್ತೀರ್ಣ ದರದ ಹತ್ತಿರ

ಈ ಫಲಿತಾಂಶವು ಸಾಂಪ್ರದಾಯಿಕ SWE-Bench ನಲ್ಲಿನ ಕಾರ್ಯಕ್ಷಮತೆಗಿಂತ ಬಹಳ ಕಡಿಮೆಯಾಗಿದೆ.

ಇದು ಏಕೆ ತುಂಬಾ ಕಷ್ಟ?

ಸವಾಲು ವಿಶ್ಲೇಷಣೆ

ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯ ವಿಶೇಷತೆಯು ಹೆಚ್ಚುವರಿ ಸವಾಲುಗಳನ್ನು ತರುತ್ತದೆ:

ಬಹು-ಅಂತ್ಯದ ಹೊಂದಾಣಿಕೆ: iOS ಮತ್ತು Android ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ಗಳನ್ನು ಏಕಕಾಲದಲ್ಲಿ ಪರಿಗಣಿಸಬೇಕು
ಸಂಕೀರ್ಣ ಅವಲಂಬನೆಗಳು: ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್‌ಗಳ ಮಾಡ್ಯೂಲ್‌ಗಳ ನಡುವಿನ ಜೋಡಣೆ ಹೆಚ್ಚಾಗಿದೆ
ಕಾರ್ಯಕ್ಷಮತೆಯ ನಿರ್ಬಂಧಗಳು: ಮೊಬೈಲ್ ಸಾಧನ ಸಂಪನ್ಮೂಲಗಳು ಸೀಮಿತವಾಗಿವೆ, ಕೋಡ್ ಆಪ್ಟಿಮೈಸೇಶನ್‌ಗೆ ಹೆಚ್ಚಿನ ಬೇಡಿಕೆಯಿದೆ
UI ತರ್ಕ ಸಂಕೀರ್ಣವಾಗಿದೆ: ಇಂಟರ್ಫೇಸ್ ಸಂವಹನ ಕೋಡ್ ಅನ್ನು ಸ್ಥಿರವಾಗಿ ವಿಶ್ಲೇಷಿಸಲು ಕಷ್ಟ

ಸಾಂಪ್ರದಾಯಿಕ ಮಾನದಂಡಗಳೊಂದಿಗೆ ಹೋಲಿಕೆ

ಹೋಲಿಕೆ ವಿಶ್ಲೇಷಣೆ

ಸಾಂಪ್ರದಾಯಿಕ SWE-Bench ಗೆ ಹೋಲಿಸಿದರೆ, ಮೊಬೈಲ್ ಆವೃತ್ತಿಯ ತೊಂದರೆ ಗಮನಾರ್ಹವಾಗಿ ಹೆಚ್ಚಾಗಿದೆ:

ಕೋಡ್ ಲೈಬ್ರರಿ ದೊಡ್ಡದಾಗಿದೆ
ವ್ಯವಹಾರ ತರ್ಕ ಹೆಚ್ಚು ಸಂಕೀರ್ಣವಾಗಿದೆ
ಪರೀಕ್ಷಾ ಪ್ರಕರಣಗಳನ್ನು ಪಾಸ್ ಮಾಡಲು ಕಷ್ಟ
ಸಂದರ್ಭ ವಿಂಡೋಗೆ ಹೆಚ್ಚಿನ ಅಗತ್ಯವಿದೆ

ಉದ್ಯಮದ ಮಹತ್ವ

ಈ ಮಾನದಂಡ ಪರೀಕ್ಷೆಯು ನೈಜ ಕೈಗಾರಿಕಾ ಸನ್ನಿವೇಶಗಳಲ್ಲಿ AI ಏಜೆಂಟ್‌ನ ಮಿತಿಗಳನ್ನು ಬಹಿರಂಗಪಡಿಸುತ್ತದೆ. ಕೋಡ್ ಉತ್ಪಾದನೆಯಲ್ಲಿ AI ವೇಗವಾಗಿ ಪ್ರಗತಿ ಸಾಧಿಸುತ್ತಿದ್ದರೂ, ದೊಡ್ಡ, ಸಂಕೀರ್ಣ ನೈಜ ಯೋಜನೆಗಳನ್ನು ನಿರ್ವಹಿಸುವಾಗ, ಅದು ಇನ್ನೂ ಬಹಳ ದೂರ ಸಾಗಬೇಕಿದೆ.

ಭವಿಷ್ಯದ ನಿರೀಕ್ಷೆಗಳು

SWE-Bench ಮೊಬೈಲ್ ಬಿಡುಗಡೆಯು AI ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಪರಿಕರಗಳ ಅಭಿವೃದ್ಧಿಗೆ ಪ್ರಮುಖ ಅಳತೆಗೋಲನ್ನು ಒದಗಿಸುತ್ತದೆ. ಇದು ನಮಗೆ ನೆನಪಿಸುತ್ತದೆ:

AI ನೆರವಿನ ಪ್ರೋಗ್ರಾಮಿಂಗ್‌ಗೆ ಇನ್ನೂ ಮಾನವ ಮೇಲ್ವಿಚಾರಣೆ ಅಗತ್ಯವಿದೆ
ಸಂಕೀರ್ಣ ಯೋಜನೆಗಳಿಗೆ ಹೆಚ್ಚು ಬುದ್ಧಿವಂತ ಸಂದರ್ಭದ ತಿಳುವಳಿಕೆ ಅಗತ್ಯವಿದೆ
ಮಾದರಿ ಸಾಮರ್ಥ್ಯವು ಸುಧಾರಣೆಗೆ ಹೆಚ್ಚಿನ ಅವಕಾಶವನ್ನು ಹೊಂದಿದೆ

ಸಂಪನ್ಮೂಲ ಲಿಂಕ್‌ಗಳು

ಸಂಪನ್ಮೂಲ

ಪ್ರಬಂಧ: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

SWE-Bench ಮೊಬೈಲ್ ಎಂದರೇನು?

ಪರೀಕ್ಷಾ ಫಲಿತಾಂಶಗಳು

ಇದು ಏಕೆ ತುಂಬಾ ಕಷ್ಟ?

ಸಾಂಪ್ರದಾಯಿಕ ಮಾನದಂಡಗಳೊಂದಿಗೆ ಹೋಲಿಕೆ

ಉದ್ಯಮದ ಮಹತ್ವ

ಭವಿಷ್ಯದ ನಿರೀಕ್ಷೆಗಳು

ಸಂಪನ್ಮೂಲ ಲಿಂಕ್‌ಗಳು

You Might Also Like

Claude Code Buddy ಪರಿಷ್ಕರಣೆ ಮಾರ್ಗದರ್ಶಿ: ಹೇಗೆ ಹೊಳೆಯುವ ಪುರಾಣ ಮಟ್ಟದ ಪೆಟ್ನನ್ನು ಪಡೆಯುವುದು

Obsidian Defuddle ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿತು, Obsidian ವೆಬ್ ಕ್ಲಿಪ್ಪರ್ ಅನ್ನು ಹೊಸ ಎತ್ತರಕ್ಕೆ ತಂದುಕೊಂಡಿತು

ಅವರು ತೀವ್ರವಾಗಿ ತೂಕ ಕಡಿಮೆ ಮಾಡಲು ಪ್ರಯತ್ನಿಸುತ್ತಿರುವ ತಾಯಿಗಳು, ಖಂಡಿತವಾಗಿ ಇಲ್ಲಿ ಬಿದ್ದಿದ್ದಾರೆ

AI Browser 24 ಗಂಟೆಗಳ ಸ್ಥಿರ ಕಾರ್ಯಾಚರಣೆ ಮಾರ್ಗದರ್ಶಿ