Google përditëson fshehurazi Deep Think, ARC-AGI-2 arrin direkt në 84.6%
Google përditëson fshehurazi Deep Think, ARC-AGI-2 arrin direkt në 84.6%
Sapo, Google DeepMind përditësoi modalitetin e dedikuar të arsyetimit të Gemini 3, Deep Think, dhe rezultatet e testit thyen të gjitha rekordet.

Duhet të dini se, ARC-AGI-2 është aktualisht një standard i njohur për testimin e aftësisë së arsyetimit të AI, dhe asnjë model nuk ka arritur të marrë rezultate veçanërisht të mira në të më parë.

Dhe Deep Think i përditësuar arriti 84.6%, krahasuar me: Claude Opus 4.6 me 68.8%, GPT-5.2 me 52.9%, dhe madje edhe Gemini 3 Pro Preview i vetë kompanisë vetëm 31.1%.
Përmirësim i madh.
Jo vetëm arsyetim
Ambicia e Deep Think është qartazi më shumë se vetëm arsyetimi.

Në Humanity's Last Exam, i cili pretendohet të jetë "provimi i fundit i njerëzimit", Deep Think arriti 48.4%. Ky test mbulon problemet më të vështira në fushën e matematikës, shkencës dhe inxhinierisë. Claude Opus 4.6 mori 40.0%, dhe GPT-5.2 34.5%.
Edhe programimi është shumë i fortë:
Në Codeforces, Deep Think arriti Elo 3455, ndërsa Gemini 3 Pro Preview është 2512, dhe Claude Opus 4.6 është 2352.

Përveç kësaj, në standardin MMMU-Pro të kuptimit dhe arsyetimit multimodal, Deep Think gjithashtu kryeson me 81.5%, por hendeku midis kompanive të ndryshme nuk është aq i madh këtu: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

Përveç rezultateve të testit, Deep Think gjithashtu mori një rezultat të nivelit të medaljes së artë në pjesën e shkruar të Olimpiadës së Fizikës dhe Kimisë 2025.
Për të zgjidhur probleme shkencore
Google DeepMind theksoi veçanërisht këtë herë se Deep Think i përditësuar nuk është më vetëm një makinë për zgjidhjen e problemeve, por për të zgjidhur probleme shkencore dhe inxhinierike të botës reale.

Ata shfaqën rastin e Wang Lab të Universitetit Duke: studiuesit përdorin Deep Think për të dizajnuar materiale të reja gjysmëpërçuese dhe për të optimizuar procesin kompleks të rritjes së kristaleve, të cilët janë materiale kandidate për gjysmëpërçues të temperaturës së lartë.


Dhe studiuesit në fushën e inxhinierisë mekanike e përdorin atë për të përsëritur prototipet fizike, duke bërë që përsëritja e harduerit të arrijë shpejtësinë e përsëritjes së softuerit, që do të thotë cikle më të shpejta përmirësimi në fusha të tilla si pajisjet ndihmëse.
Si të përdorni
Modaliteti Deep Think i përditësuar tani ka filluar të shtyhet në Gemini App për përdoruesit e abonuar në Google AI Ultra.

Për studiuesit dhe zhvilluesit, Google ka hapur Programin e hershëm të aksesit Vertex AI, i cili mund të përdoret përmes API.
Vertex AI 早期访问:https://goo.gle/4rMHUlq





