ਛੋਟੀ ਲਾਲ ਕਿਤਾਬ ਨੇ SWE-Bench Mobile ਜਾਰੀ ਕੀਤਾ: ਜਦੋਂ AI ਏਜੰਟ ਕਰੋੜਾਂ ਉਪਭੋਗਤਾਵਾਂ ਵਾਲੇ ਐਪ ਕੋਡ ਬੇਸ ਦਾ ਸਾਹਮਣਾ ਕਰਦੇ ਹਨ, ਤਾਂ ਸਭ ਤੋਂ ਵੱਧ ਪਾਸ ਦਰ ਸਿਰਫ 12% ਹੁੰਦੀ ਹੈ?

SWE-Bench Mobile

ਛੋਟੀ ਲਾਲ ਕਿਤਾਬ ਟੀਮ ਨੇ ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ SWE-Bench Mobile ਜਾਰੀ ਕੀਤਾ ਹੈ, ਜੋ ਖਾਸ ਤੌਰ 'ਤੇ ਅਸਲ ਮੋਬਾਈਲ ਐਪਲੀਕੇਸ਼ਨ ਕੋਡ ਬੇਸ 'ਤੇ AI ਏਜੰਟ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਹੈ। ਨਤੀਜੇ ਸੋਚਣ ਲਈ ਮਜਬੂਰ ਕਰਨ ਵਾਲੇ ਹਨ: ਇੱਥੋਂ ਤੱਕ ਕਿ ਚੋਟੀ ਦੇ AI ਏਜੰਟਾਂ ਲਈ, ਕਰੋੜਾਂ ਉਪਭੋਗਤਾਵਾਂ ਵਾਲੇ ਐਪ ਦੇ ਕੋਡ ਬੇਸ ਦਾ ਸਾਹਮਣਾ ਕਰਨ 'ਤੇ, ਸਭ ਤੋਂ ਵੱਧ ਪਾਸ ਦਰ ਸਿਰਫ 12% ਹੈ।

ਟੈਸਟਿੰਗ ਦ੍ਰਿਸ਼

SWE-Bench Mobile ਕੀ ਹੈ?

ਬੈਂਚਮਾਰਕ ਜਾਣ-ਪਛਾਣ

SWE-Bench Mobile ਮੋਬਾਈਲ ਐਪਲੀਕੇਸ਼ਨ ਵਿਕਾਸ ਲਈ ਇੱਕ ਕੋਡ ਫਿਕਸਿੰਗ ਬੈਂਚਮਾਰਕ ਹੈ। ਇਸ ਵਿੱਚ ਅਸਲ ਮੋਬਾਈਲ ਐਪਲੀਕੇਸ਼ਨ ਬੱਗ ਫਿਕਸਿੰਗ ਟਾਸਕ ਸ਼ਾਮਲ ਹਨ, ਜਿਸ ਵਿੱਚ AI ਏਜੰਟ ਨੂੰ ਇਹ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ:

ਗੁੰਝਲਦਾਰ ਮੋਬਾਈਲ ਐਪਲੀਕੇਸ਼ਨ ਕੋਡ ਬਣਤਰ ਨੂੰ ਸਮਝਣਾ
ਸਮੱਸਿਆ ਦੇ ਮੂਲ ਕਾਰਨ ਦਾ ਪਤਾ ਲਗਾਉਣਾ
ਸਹੀ ਫਿਕਸਿੰਗ ਕੋਡ ਤਿਆਰ ਕਰਨਾ
ਇਹ ਯਕੀਨੀ ਬਣਾਉਣਾ ਕਿ ਫਿਕਸਿੰਗ ਕੋਈ ਨਵੀਂ ਸਮੱਸਿਆ ਪੈਦਾ ਨਹੀਂ ਕਰਦੀ

ਟੈਸਟ ਦੇ ਨਤੀਜੇ

ਟੈਸਟ ਵਿੱਚ, ਕਈ ਮੁੱਖ ਧਾਰਾ ਵਾਲੇ AI ਏਜੰਟਾਂ ਨੇ ਹੇਠ ਲਿਖੇ ਅਨੁਸਾਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ:

ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ: 12% ਪਾਸ ਦਰ
ਔਸਤ ਪੱਧਰ: 5-8% ਪਾਸ ਦਰ
ਕੁਝ ਮਾਡਲ: 0% ਦੇ ਨੇੜੇ ਪਾਸ ਦਰ

ਇਹ ਨਤੀਜਾ ਰਵਾਇਤੀ SWE-Bench 'ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨਾਲੋਂ ਬਹੁਤ ਘੱਟ ਹੈ।

ਇਹ ਇੰਨਾ ਔਖਾ ਕਿਉਂ ਹੈ?

ਚੁਣੌਤੀ ਵਿਸ਼ਲੇਸ਼ਣ

ਮੋਬਾਈਲ ਐਪਲੀਕੇਸ਼ਨ ਕੋਡ ਬੇਸ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਵਾਧੂ ਚੁਣੌਤੀਆਂ ਲਿਆਉਂਦੀ ਹੈ:

ਮਲਟੀ-ਐਂਡ ਅਡੈਪਟੇਸ਼ਨ: iOS ਅਤੇ Android ਪਲੇਟਫਾਰਮਾਂ 'ਤੇ ਇੱਕੋ ਸਮੇਂ ਵਿਚਾਰ ਕਰਨ ਦੀ ਲੋੜ ਹੈ
ਗੁੰਝਲਦਾਰ ਨਿਰਭਰਤਾ ਸਬੰਧ: ਮੋਬਾਈਲ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੇ ਮੋਡੀਊਲਾਂ ਵਿਚਕਾਰ ਉੱਚ ਜੋੜੀ
ਪ੍ਰਦਰਸ਼ਨ ਰੁਕਾਵਟਾਂ: ਮੋਬਾਈਲ ਡਿਵਾਈਸਾਂ ਦੇ ਸੀਮਤ ਸਰੋਤ, ਕੋਡ ਅਨੁਕੂਲਨ ਦੀਆਂ ਉੱਚ ਲੋੜਾਂ
UI ਤਰਕ ਗੁੰਝਲਦਾਰ: ਇੰਟਰਫੇਸ ਇੰਟਰੈਕਸ਼ਨ ਕੋਡ ਦਾ ਸਥਿਰ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੈ

ਰਵਾਇਤੀ ਬੈਂਚਮਾਰਕ ਨਾਲ ਤੁਲਨਾ

ਤੁਲਨਾਤਮਕ ਵਿਸ਼ਲੇਸ਼ਣ

ਰਵਾਇਤੀ SWE-Bench ਦੇ ਮੁਕਾਬਲੇ, ਮੋਬਾਈਲ ਸੰਸਕਰਣ ਦੀ ਮੁਸ਼ਕਲ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਵਾਧਾ ਹੋਇਆ ਹੈ:

ਕੋਡ ਬੇਸ ਦਾ ਆਕਾਰ ਵੱਡਾ ਹੈ
ਕਾਰੋਬਾਰੀ ਤਰਕ ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਹੈ
ਟੈਸਟ ਕੇਸਾਂ ਨੂੰ ਪਾਸ ਕਰਨਾ ਵਧੇਰੇ ਮੁਸ਼ਕਲ ਹੈ
ਸੰਦਰਭ ਵਿੰਡੋ ਦੀਆਂ ਲੋੜਾਂ ਵਧੇਰੇ ਹਨ

ਉਦਯੋਗਿਕ ਮਹੱਤਤਾ

ਇਹ ਬੈਂਚਮਾਰਕ ਅਸਲ ਉਦਯੋਗਿਕ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ AI ਏਜੰਟ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ ਕੋਡ ਜਨਰੇਸ਼ਨ ਵਿੱਚ AI ਤੇਜ਼ੀ ਨਾਲ ਅੱਗੇ ਵਧ ਰਿਹਾ ਹੈ, ਪਰ ਵੱਡੇ, ਗੁੰਝਲਦਾਰ ਅਸਲ ਪ੍ਰੋਜੈਕਟਾਂ ਨਾਲ ਨਜਿੱਠਣ ਵੇਲੇ, ਅਜੇ ਵੀ ਇੱਕ ਲੰਮਾ ਸਫ਼ਰ ਤੈਅ ਕਰਨਾ ਬਾਕੀ ਹੈ।

ਭਵਿੱਖੀ ਸੰਭਾਵਨਾਵਾਂ

SWE-Bench Mobile ਦੀ ਰਿਲੀਜ਼ AI ਪ੍ਰੋਗਰਾਮਿੰਗ ਟੂਲਸ ਦੇ ਵਿਕਾਸ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਮਾਪਦੰਡ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਇਹ ਸਾਨੂੰ ਯਾਦ ਦਿਵਾਉਂਦਾ ਹੈ:

AI ਸਹਾਇਕ ਪ੍ਰੋਗਰਾਮਿੰਗ ਨੂੰ ਅਜੇ ਵੀ ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ ਦੀ ਲੋੜ ਹੈ
ਗੁੰਝਲਦਾਰ ਪ੍ਰੋਜੈਕਟਾਂ ਨੂੰ ਵਧੇਰੇ ਬੁੱਧੀਮਾਨ ਸੰਦਰਭ ਸਮਝ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ
ਮਾਡਲ ਸਮਰੱਥਾ ਵਿੱਚ ਸੁਧਾਰ ਲਈ ਬਹੁਤ ਜਗ੍ਹਾ ਹੈ

ਸਰੋਤ ਲਿੰਕ

ਸਰੋਤ

ਪੇਪਰ: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

SWE-Bench Mobile ਕੀ ਹੈ?

ਟੈਸਟ ਦੇ ਨਤੀਜੇ

ਇਹ ਇੰਨਾ ਔਖਾ ਕਿਉਂ ਹੈ?

ਰਵਾਇਤੀ ਬੈਂਚਮਾਰਕ ਨਾਲ ਤੁਲਨਾ

ਉਦਯੋਗਿਕ ਮਹੱਤਤਾ

ਭਵਿੱਖੀ ਸੰਭਾਵਨਾਵਾਂ

ਸਰੋਤ ਲਿੰਕ

You Might Also Like

Claude Code Buddy ਸੋਧ ਗਾਈਡ: ਕਿਵੇਂ ਚਮਕਦਾਰ ਪੁਰਾਣੀ ਪਾਲਤੂ ਪ੍ਰਾਪਤ ਕਰੀਏ

Obsidian ਨੇ Defuddle ਜਾਰੀ ਕੀਤਾ, Obsidian Web Clipper ਨੂੰ ਇੱਕ ਨਵੇਂ ਉੱਚਾਈ 'ਤੇ ਲੈ ਗਿਆ

OpenAI اچانک "تین میں ایک" کا اعلان کرتا ہے: براؤزر + پروگرامنگ + ChatGPT کا انضمام، اندرونی طور پر تسلیم کیا کہ پچھلے سال غلط راستہ اختیار کیا گیا

2026, ਆਪਣੇ ਆਪ ਨੂੰ "ਆਤਮ-ਨਿਯੰਤਰਣ" ਕਰਨ ਲਈ ਦਬਾਉ ਨਾ ਦਿਓ! ਇਹ 8 ਛੋਟੇ ਕੰਮ ਕਰੋ, ਸਿਹਤ ਆਪ ਹੀ ਆਏਗੀ

ਉਹ ਮਾਂਵਾਂ ਜੋ ਵਜ਼ਨ ਘਟਾਉਣ ਲਈ ਕੋਸ਼ਿਸ਼ ਕਰਦੀਆਂ ਹਨ, ਪਰ ਫਿਰ ਵੀ ਘਟ ਨਹੀਂ ਪਾਉਂਦੀਆਂ, ਇਹਨਾਂ ਨੂੰ ਇੱਥੇ ਹੀ ਫਸਣਾ ਪੈਂਦਾ ਹੈ

AI Browser 24 ਘੰਟੇ ਸਥਿਰ ਚਾਲੂ ਰੱਖਣ ਦੀ ਗਾਈਡ