ಸಣ್ಣ ಕೆಂಪು ಪುಸ್ತಕ SWE-Bench ಮೊಬೈಲ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ: AI ಏಜೆಂಟ್ ಕೋಟ್ಯಂತರ ಬಳಕೆದಾರರ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯನ್ನು ಎದುರಿಸಿದಾಗ, ಗರಿಷ್ಠ ಉತ್ತೀರ್ಣ ದರ ಕೇವಲ 12%?
ಸಣ್ಣ ಕೆಂಪು ಪುಸ್ತಕ SWE-Bench ಮೊಬೈಲ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ: AI ಏಜೆಂಟ್ ಕೋಟ್ಯಂತರ ಬಳಕೆದಾರರ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯನ್ನು ಎದುರಿಸಿದಾಗ, ಗರಿಷ್ಠ ಉತ್ತೀರ್ಣ ದರ ಕೇವಲ 12%?

ಸಣ್ಣ ಕೆಂಪು ಪುಸ್ತಕ ತಂಡವು ಹೊಸ ಮಾನದಂಡ ಪರೀಕ್ಷೆ SWE-Bench ಮೊಬೈಲ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ, ಇದು ನೈಜ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯಲ್ಲಿ AI ಏಜೆಂಟ್ನ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ನಿರ್ಣಯಿಸಲು ವಿಶೇಷವಾಗಿದೆ. ಫಲಿತಾಂಶಗಳು ಆಳವಾಗಿ ಚಿಂತಿಸುವಂತೆ ಮಾಡುತ್ತವೆ: ಉನ್ನತ AI ಏಜೆಂಟ್ ಸಹ ಕೋಟ್ಯಂತರ ಬಳಕೆದಾರರ ಅಪ್ಲಿಕೇಶನ್ನ ಕೋಡ್ ಲೈಬ್ರರಿಯನ್ನು ಎದುರಿಸಿದಾಗ, ಗರಿಷ್ಠ ಉತ್ತೀರ್ಣ ದರ ಕೇವಲ 12% ಮಾತ್ರ.

SWE-Bench ಮೊಬೈಲ್ ಎಂದರೇನು?

SWE-Bench ಮೊಬೈಲ್ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಅಭಿವೃದ್ಧಿಗಾಗಿ ಕೋಡ್ ದುರಸ್ತಿ ಮಾನದಂಡ ಪರೀಕ್ಷೆಯಾಗಿದೆ. ಇದು ನೈಜ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ದೋಷ ದುರಸ್ತಿ ಕಾರ್ಯಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, AI ಏಜೆಂಟ್ ಹೀಗೆ ಮಾಡಲು ಅಗತ್ಯವಿದೆ:
- ಸಂಕೀರ್ಣ ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ರಚನೆಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು
- ಸಮಸ್ಯೆಯ ಮೂಲವನ್ನು ಗುರುತಿಸುವುದು
- ಸರಿಯಾದ ದುರಸ್ತಿ ಕೋಡ್ ಅನ್ನು ರಚಿಸುವುದು
- ದುರಸ್ತಿ ಹೊಸ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಚಯಿಸುವುದಿಲ್ಲ ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳುವುದು
ಪರೀಕ್ಷಾ ಫಲಿತಾಂಶಗಳು

ಪರೀಕ್ಷೆಯಲ್ಲಿ, ಅನೇಕ ಮುಖ್ಯವಾಹಿನಿಯ AI ಏಜೆಂಟ್ಗಳ ಕಾರ್ಯಕ್ಷಮತೆ ಈ ಕೆಳಗಿನಂತಿತ್ತು:
- ಉತ್ತಮ ಕಾರ್ಯಕ್ಷಮತೆ: 12% ಉತ್ತೀರ್ಣ ದರ
- ಸರಾಸರಿ ಮಟ್ಟ: 5-8% ಉತ್ತೀರ್ಣ ದರ
- ಕೆಲವು ಮಾದರಿಗಳು: 0% ಉತ್ತೀರ್ಣ ದರದ ಹತ್ತಿರ
ಈ ಫಲಿತಾಂಶವು ಸಾಂಪ್ರದಾಯಿಕ SWE-Bench ನಲ್ಲಿನ ಕಾರ್ಯಕ್ಷಮತೆಗಿಂತ ಬಹಳ ಕಡಿಮೆಯಾಗಿದೆ.
ಇದು ಏಕೆ ತುಂಬಾ ಕಷ್ಟ?

ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ ಲೈಬ್ರರಿಯ ವಿಶೇಷತೆಯು ಹೆಚ್ಚುವರಿ ಸವಾಲುಗಳನ್ನು ತರುತ್ತದೆ:
- ಬಹು-ಅಂತ್ಯದ ಹೊಂದಾಣಿಕೆ: iOS ಮತ್ತು Android ಪ್ಲಾಟ್ಫಾರ್ಮ್ಗಳನ್ನು ಏಕಕಾಲದಲ್ಲಿ ಪರಿಗಣಿಸಬೇಕು
- ಸಂಕೀರ್ಣ ಅವಲಂಬನೆಗಳು: ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ಗಳ ಮಾಡ್ಯೂಲ್ಗಳ ನಡುವಿನ ಜೋಡಣೆ ಹೆಚ್ಚಾಗಿದೆ
- ಕಾರ್ಯಕ್ಷಮತೆಯ ನಿರ್ಬಂಧಗಳು: ಮೊಬೈಲ್ ಸಾಧನ ಸಂಪನ್ಮೂಲಗಳು ಸೀಮಿತವಾಗಿವೆ, ಕೋಡ್ ಆಪ್ಟಿಮೈಸೇಶನ್ಗೆ ಹೆಚ್ಚಿನ ಬೇಡಿಕೆಯಿದೆ
- UI ತರ್ಕ ಸಂಕೀರ್ಣವಾಗಿದೆ: ಇಂಟರ್ಫೇಸ್ ಸಂವಹನ ಕೋಡ್ ಅನ್ನು ಸ್ಥಿರವಾಗಿ ವಿಶ್ಲೇಷಿಸಲು ಕಷ್ಟ
ಸಾಂಪ್ರದಾಯಿಕ ಮಾನದಂಡಗಳೊಂದಿಗೆ ಹೋಲಿಕೆ

ಸಾಂಪ್ರದಾಯಿಕ SWE-Bench ಗೆ ಹೋಲಿಸಿದರೆ, ಮೊಬೈಲ್ ಆವೃತ್ತಿಯ ತೊಂದರೆ ಗಮನಾರ್ಹವಾಗಿ ಹೆಚ್ಚಾಗಿದೆ:
- ಕೋಡ್ ಲೈಬ್ರರಿ ದೊಡ್ಡದಾಗಿದೆ
- ವ್ಯವಹಾರ ತರ್ಕ ಹೆಚ್ಚು ಸಂಕೀರ್ಣವಾಗಿದೆ
- ಪರೀಕ್ಷಾ ಪ್ರಕರಣಗಳನ್ನು ಪಾಸ್ ಮಾಡಲು ಕಷ್ಟ
- ಸಂದರ್ಭ ವಿಂಡೋಗೆ ಹೆಚ್ಚಿನ ಅಗತ್ಯವಿದೆ
ಉದ್ಯಮದ ಮಹತ್ವ

ಈ ಮಾನದಂಡ ಪರೀಕ್ಷೆಯು ನೈಜ ಕೈಗಾರಿಕಾ ಸನ್ನಿವೇಶಗಳಲ್ಲಿ AI ಏಜೆಂಟ್ನ ಮಿತಿಗಳನ್ನು ಬಹಿರಂಗಪಡಿಸುತ್ತದೆ. ಕೋಡ್ ಉತ್ಪಾದನೆಯಲ್ಲಿ AI ವೇಗವಾಗಿ ಪ್ರಗತಿ ಸಾಧಿಸುತ್ತಿದ್ದರೂ, ದೊಡ್ಡ, ಸಂಕೀರ್ಣ ನೈಜ ಯೋಜನೆಗಳನ್ನು ನಿರ್ವಹಿಸುವಾಗ, ಅದು ಇನ್ನೂ ಬಹಳ ದೂರ ಸಾಗಬೇಕಿದೆ.
ಭವಿಷ್ಯದ ನಿರೀಕ್ಷೆಗಳು

SWE-Bench ಮೊಬೈಲ್ ಬಿಡುಗಡೆಯು AI ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಪರಿಕರಗಳ ಅಭಿವೃದ್ಧಿಗೆ ಪ್ರಮುಖ ಅಳತೆಗೋಲನ್ನು ಒದಗಿಸುತ್ತದೆ. ಇದು ನಮಗೆ ನೆನಪಿಸುತ್ತದೆ:
- AI ನೆರವಿನ ಪ್ರೋಗ್ರಾಮಿಂಗ್ಗೆ ಇನ್ನೂ ಮಾನವ ಮೇಲ್ವಿಚಾರಣೆ ಅಗತ್ಯವಿದೆ
- ಸಂಕೀರ್ಣ ಯೋಜನೆಗಳಿಗೆ ಹೆಚ್ಚು ಬುದ್ಧಿವಂತ ಸಂದರ್ಭದ ತಿಳುವಳಿಕೆ ಅಗತ್ಯವಿದೆ
- ಮಾದರಿ ಸಾಮರ್ಥ್ಯವು ಸುಧಾರಣೆಗೆ ಹೆಚ್ಚಿನ ಅವಕಾಶವನ್ನು ಹೊಂದಿದೆ
ಸಂಪನ್ಮೂಲ ಲಿಂಕ್ಗಳು






