Google përditëson fshehurazi Deep Think, ARC-AGI-2 arrin direkt në 84.6%

Sapo, Google DeepMind përditësoi modalitetin e dedikuar të arsyetimit të Gemini 3, Deep Think, dhe rezultatet e testit thyen të gjitha rekordet.

Deep Think

Duhet të dini se, ARC-AGI-2 është aktualisht një standard i njohur për testimin e aftësisë së arsyetimit të AI, dhe asnjë model nuk ka arritur të marrë rezultate veçanërisht të mira në të më parë.

基准对比

Dhe Deep Think i përditësuar arriti 84.6%, krahasuar me: Claude Opus 4.6 me 68.8%, GPT-5.2 me 52.9%, dhe madje edhe Gemini 3 Pro Preview i vetë kompanisë vetëm 31.1%.

Përmirësim i madh.

Jo vetëm arsyetim

Ambicia e Deep Think është qartazi më shumë se vetëm arsyetimi.

不止推理

Në Humanity's Last Exam, i cili pretendohet të jetë "provimi i fundit i njerëzimit", Deep Think arriti 48.4%. Ky test mbulon problemet më të vështira në fushën e matematikës, shkencës dhe inxhinierisë. Claude Opus 4.6 mori 40.0%, dhe GPT-5.2 34.5%.

Edhe programimi është shumë i fortë:

Në Codeforces, Deep Think arriti Elo 3455, ndërsa Gemini 3 Pro Preview është 2512, dhe Claude Opus 4.6 është 2352.

Codeforces

Përveç kësaj, në standardin MMMU-Pro të kuptimit dhe arsyetimit multimodal, Deep Think gjithashtu kryeson me 81.5%, por hendeku midis kompanive të ndryshme nuk është aq i madh këtu: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Përveç rezultateve të testit, Deep Think gjithashtu mori një rezultat të nivelit të medaljes së artë në pjesën e shkruar të Olimpiadës së Fizikës dhe Kimisë 2025.

Për të zgjidhur probleme shkencore

Google DeepMind theksoi veçanërisht këtë herë se Deep Think i përditësuar nuk është më vetëm një makinë për zgjidhjen e problemeve, por për të zgjidhur probleme shkencore dhe inxhinierike të botës reale.

科学问题

Ata shfaqën rastin e Wang Lab të Universitetit Duke: studiuesit përdorin Deep Think për të dizajnuar materiale të reja gjysmëpërçuese dhe për të optimizuar procesin kompleks të rritjes së kristaleve, të cilët janë materiale kandidate për gjysmëpërçues të temperaturës së lartë.

Duke案例

机械工程

Dhe studiuesit në fushën e inxhinierisë mekanike e përdorin atë për të përsëritur prototipet fizike, duke bërë që përsëritja e harduerit të arrijë shpejtësinë e përsëritjes së softuerit, që do të thotë cikle më të shpejta përmirësimi në fusha të tilla si pajisjet ndihmëse.

Si të përdorni

Modaliteti Deep Think i përditësuar tani ka filluar të shtyhet në Gemini App për përdoruesit e abonuar në Google AI Ultra.

如何使用

Për studiuesit dhe zhvilluesit, Google ka hapur Programin e hershëm të aksesit Vertex AI, i cili mund të përdoret përmes API.

Vertex AI 早期访问：https://goo.gle/4rMHUlq

Google përditëson fshehurazi Deep Think, ARC-AGI-2 arrin direkt në 84.6%

Google përditëson fshehurazi Deep Think, ARC-AGI-2 arrin direkt në 84.6%

Jo vetëm arsyetim

Për të zgjidhur probleme shkencore

Si të përdorni

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian ka lançuar Defuddle, duke e çuar Obsidian Web Clipper në një nivel të ri

OpenAI papritur shpall "tre në një": shkrimi i shfletuesit + programimi + bashkimi i ChatGPT, brenda pranojnë se vitin e kaluar kanë bërë gabime

2026, mos e detyro veten "disiplinë"! Bëni këto 8 gjëra të vogla, shëndeti do të vijë natyrshëm

Mamat që përpiqen të humbin peshë dhe nuk arrijnë, patjetër që kanë rënë këtu

AI Browser 24-orësh Stabiliteti i Udhëzimeve