ਛੋਟੀ ਲਾਲ ਕਿਤਾਬ ਨੇ SWE-Bench Mobile ਜਾਰੀ ਕੀਤਾ: ਜਦੋਂ AI ਏਜੰਟ ਕਰੋੜਾਂ ਉਪਭੋਗਤਾਵਾਂ ਵਾਲੇ ਐਪ ਕੋਡ ਬੇਸ ਦਾ ਸਾਹਮਣਾ ਕਰਦੇ ਹਨ, ਤਾਂ ਸਭ ਤੋਂ ਵੱਧ ਪਾਸ ਦਰ ਸਿਰਫ 12% ਹੁੰਦੀ ਹੈ?
ਛੋਟੀ ਲਾਲ ਕਿਤਾਬ ਨੇ SWE-Bench Mobile ਜਾਰੀ ਕੀਤਾ: ਜਦੋਂ AI ਏਜੰਟ ਕਰੋੜਾਂ ਉਪਭੋਗਤਾਵਾਂ ਵਾਲੇ ਐਪ ਕੋਡ ਬੇਸ ਦਾ ਸਾਹਮਣਾ ਕਰਦੇ ਹਨ, ਤਾਂ ਸਭ ਤੋਂ ਵੱਧ ਪਾਸ ਦਰ ਸਿਰਫ 12% ਹੁੰਦੀ ਹੈ?

ਛੋਟੀ ਲਾਲ ਕਿਤਾਬ ਟੀਮ ਨੇ ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ SWE-Bench Mobile ਜਾਰੀ ਕੀਤਾ ਹੈ, ਜੋ ਖਾਸ ਤੌਰ 'ਤੇ ਅਸਲ ਮੋਬਾਈਲ ਐਪਲੀਕੇਸ਼ਨ ਕੋਡ ਬੇਸ 'ਤੇ AI ਏਜੰਟ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਹੈ। ਨਤੀਜੇ ਸੋਚਣ ਲਈ ਮਜਬੂਰ ਕਰਨ ਵਾਲੇ ਹਨ: ਇੱਥੋਂ ਤੱਕ ਕਿ ਚੋਟੀ ਦੇ AI ਏਜੰਟਾਂ ਲਈ, ਕਰੋੜਾਂ ਉਪਭੋਗਤਾਵਾਂ ਵਾਲੇ ਐਪ ਦੇ ਕੋਡ ਬੇਸ ਦਾ ਸਾਹਮਣਾ ਕਰਨ 'ਤੇ, ਸਭ ਤੋਂ ਵੱਧ ਪਾਸ ਦਰ ਸਿਰਫ 12% ਹੈ।

SWE-Bench Mobile ਕੀ ਹੈ?

SWE-Bench Mobile ਮੋਬਾਈਲ ਐਪਲੀਕੇਸ਼ਨ ਵਿਕਾਸ ਲਈ ਇੱਕ ਕੋਡ ਫਿਕਸਿੰਗ ਬੈਂਚਮਾਰਕ ਹੈ। ਇਸ ਵਿੱਚ ਅਸਲ ਮੋਬਾਈਲ ਐਪਲੀਕੇਸ਼ਨ ਬੱਗ ਫਿਕਸਿੰਗ ਟਾਸਕ ਸ਼ਾਮਲ ਹਨ, ਜਿਸ ਵਿੱਚ AI ਏਜੰਟ ਨੂੰ ਇਹ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ:
- ਗੁੰਝਲਦਾਰ ਮੋਬਾਈਲ ਐਪਲੀਕੇਸ਼ਨ ਕੋਡ ਬਣਤਰ ਨੂੰ ਸਮਝਣਾ
- ਸਮੱਸਿਆ ਦੇ ਮੂਲ ਕਾਰਨ ਦਾ ਪਤਾ ਲਗਾਉਣਾ
- ਸਹੀ ਫਿਕਸਿੰਗ ਕੋਡ ਤਿਆਰ ਕਰਨਾ
- ਇਹ ਯਕੀਨੀ ਬਣਾਉਣਾ ਕਿ ਫਿਕਸਿੰਗ ਕੋਈ ਨਵੀਂ ਸਮੱਸਿਆ ਪੈਦਾ ਨਹੀਂ ਕਰਦੀ
ਟੈਸਟ ਦੇ ਨਤੀਜੇ

ਟੈਸਟ ਵਿੱਚ, ਕਈ ਮੁੱਖ ਧਾਰਾ ਵਾਲੇ AI ਏਜੰਟਾਂ ਨੇ ਹੇਠ ਲਿਖੇ ਅਨੁਸਾਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ:
- ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ: 12% ਪਾਸ ਦਰ
- ਔਸਤ ਪੱਧਰ: 5-8% ਪਾਸ ਦਰ
- ਕੁਝ ਮਾਡਲ: 0% ਦੇ ਨੇੜੇ ਪਾਸ ਦਰ
ਇਹ ਨਤੀਜਾ ਰਵਾਇਤੀ SWE-Bench 'ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨਾਲੋਂ ਬਹੁਤ ਘੱਟ ਹੈ।
ਇਹ ਇੰਨਾ ਔਖਾ ਕਿਉਂ ਹੈ?

ਮੋਬਾਈਲ ਐਪਲੀਕੇਸ਼ਨ ਕੋਡ ਬੇਸ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਵਾਧੂ ਚੁਣੌਤੀਆਂ ਲਿਆਉਂਦੀ ਹੈ:
- ਮਲਟੀ-ਐਂਡ ਅਡੈਪਟੇਸ਼ਨ: iOS ਅਤੇ Android ਪਲੇਟਫਾਰਮਾਂ 'ਤੇ ਇੱਕੋ ਸਮੇਂ ਵਿਚਾਰ ਕਰਨ ਦੀ ਲੋੜ ਹੈ
- ਗੁੰਝਲਦਾਰ ਨਿਰਭਰਤਾ ਸਬੰਧ: ਮੋਬਾਈਲ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੇ ਮੋਡੀਊਲਾਂ ਵਿਚਕਾਰ ਉੱਚ ਜੋੜੀ
- ਪ੍ਰਦਰਸ਼ਨ ਰੁਕਾਵਟਾਂ: ਮੋਬਾਈਲ ਡਿਵਾਈਸਾਂ ਦੇ ਸੀਮਤ ਸਰੋਤ, ਕੋਡ ਅਨੁਕੂਲਨ ਦੀਆਂ ਉੱਚ ਲੋੜਾਂ
- UI ਤਰਕ ਗੁੰਝਲਦਾਰ: ਇੰਟਰਫੇਸ ਇੰਟਰੈਕਸ਼ਨ ਕੋਡ ਦਾ ਸਥਿਰ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੈ
ਰਵਾਇਤੀ ਬੈਂਚਮਾਰਕ ਨਾਲ ਤੁਲਨਾ

ਰਵਾਇਤੀ SWE-Bench ਦੇ ਮੁਕਾਬਲੇ, ਮੋਬਾਈਲ ਸੰਸਕਰਣ ਦੀ ਮੁਸ਼ਕਲ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਵਾਧਾ ਹੋਇਆ ਹੈ:
- ਕੋਡ ਬੇਸ ਦਾ ਆਕਾਰ ਵੱਡਾ ਹੈ
- ਕਾਰੋਬਾਰੀ ਤਰਕ ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਹੈ
- ਟੈਸਟ ਕੇਸਾਂ ਨੂੰ ਪਾਸ ਕਰਨਾ ਵਧੇਰੇ ਮੁਸ਼ਕਲ ਹੈ
- ਸੰਦਰਭ ਵਿੰਡੋ ਦੀਆਂ ਲੋੜਾਂ ਵਧੇਰੇ ਹਨ
ਉਦਯੋਗਿਕ ਮਹੱਤਤਾ

ਇਹ ਬੈਂਚਮਾਰਕ ਅਸਲ ਉਦਯੋਗਿਕ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ AI ਏਜੰਟ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ ਕੋਡ ਜਨਰੇਸ਼ਨ ਵਿੱਚ AI ਤੇਜ਼ੀ ਨਾਲ ਅੱਗੇ ਵਧ ਰਿਹਾ ਹੈ, ਪਰ ਵੱਡੇ, ਗੁੰਝਲਦਾਰ ਅਸਲ ਪ੍ਰੋਜੈਕਟਾਂ ਨਾਲ ਨਜਿੱਠਣ ਵੇਲੇ, ਅਜੇ ਵੀ ਇੱਕ ਲੰਮਾ ਸਫ਼ਰ ਤੈਅ ਕਰਨਾ ਬਾਕੀ ਹੈ।
ਭਵਿੱਖੀ ਸੰਭਾਵਨਾਵਾਂ

SWE-Bench Mobile ਦੀ ਰਿਲੀਜ਼ AI ਪ੍ਰੋਗਰਾਮਿੰਗ ਟੂਲਸ ਦੇ ਵਿਕਾਸ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਮਾਪਦੰਡ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਇਹ ਸਾਨੂੰ ਯਾਦ ਦਿਵਾਉਂਦਾ ਹੈ:
- AI ਸਹਾਇਕ ਪ੍ਰੋਗਰਾਮਿੰਗ ਨੂੰ ਅਜੇ ਵੀ ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ ਦੀ ਲੋੜ ਹੈ
- ਗੁੰਝਲਦਾਰ ਪ੍ਰੋਜੈਕਟਾਂ ਨੂੰ ਵਧੇਰੇ ਬੁੱਧੀਮਾਨ ਸੰਦਰਭ ਸਮਝ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ
- ਮਾਡਲ ਸਮਰੱਥਾ ਵਿੱਚ ਸੁਧਾਰ ਲਈ ਬਹੁਤ ਜਗ੍ਹਾ ਹੈ
ਸਰੋਤ ਲਿੰਕ






