Google je tiho nadogradio Deep Think, ARC-AGI-2 izravno na 84,6%

Upravo je Google DeepMind nadogradio Gemini 3 namjenski način zaključivanja Deep Think, rezultati su izravno pokorili ljestvice.

Deep Think

Treba znati da je ARC-AGI-2 trenutno priznati vrhunski standard za testiranje sposobnosti AI zaključivanja, a prije toga nijedan model nije uspio postići posebno dobre rezultate na njemu.

基准对比

Ažurirani Deep Think je postigao 84,6%, usporedbe radi: Claude Opus 4.6 je 68,8%, GPT-5.2 je 52,9%, a čak i vlastiti Gemini 3 Pro Preview je samo 31,1%.

Ogroman napredak.

Ne samo zaključivanje

Deep Think očito ima ambicije koje sežu dalje od zaključivanja.

不止推理

Na Humanity's Last Exam, koji se naziva "posljednji ispit čovječanstva", Deep Think je postigao 48,4%. Ovaj test pokriva najteža pitanja iz matematike, znanosti i inženjerstva. Claude Opus 4.6 je dobio 40,0%, a GPT-5.2 34,5%.

Programiranje je također vrlo snažno:

Na Codeforcesu je Deep Think dosegao Elo 3455, dok je Gemini 3 Pro Preview 2512, a Claude Opus 4.6 2352.

Codeforces

Pored toga, na MMMU-Pro standardu za multimodalno razumijevanje i zaključivanje, Deep Think također prednjači s 81,5%, ali ovdje razlika između različitih tvrtki nije toliko velika: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

MMMU-Pro

Osim rezultata, Deep Think je također postigao rezultat na razini zlatne medalje na pismenom dijelu Olimpijade iz fizike i kemije 2025.

Rješavanje znanstvenih problema

Google DeepMind je ovaj put posebno naglasio da nadograđeni Deep Think više nije samo stroj za rješavanje problema, već treba rješavati stvarne znanstvene i inženjerske probleme.

科学问题

Prikazali su slučaj Wang Laba sa Sveučilišta Duke: istraživači koriste Deep Think za dizajniranje novih poluvodičkih materijala i optimizaciju procesa rasta složenih kristala, koji su kandidati za visokotemperaturne poluvodiče.

Duke案例

机械工程

Tu su i istraživači u području strojarstva koji ga koriste za iteriranje fizičkih prototipova, omogućujući iteraciju hardvera brzinom iteracije softvera, što znači brže cikluse poboljšanja u područjima kao što su pomoćni uređaji.

Kako koristiti

Nadograđeni način rada Deep Think sada se počinje uvoditi u aplikaciji Gemini za pretplatnike na Google AI Ultra.

如何使用

Za istraživače i programere, Google je otvorio program ranog pristupa Vertex AI, koji se može koristiti putem API-ja.

Vertex AI rani pristup: https://goo.gle/4rMHUlq

Google je tiho nadogradio Deep Think, ARC-AGI-2 izravno na 84,6%

Google je tiho nadogradio Deep Think, ARC-AGI-2 izravno na 84,6%

Ne samo zaključivanje

Rješavanje znanstvenih problema

Kako koristiti

You Might Also Like

Claude Code Buddy izmjena vodič: kako dobiti sjajnog legendarno ljubimca

Obsidian je lansirao Defuddle, podižući Obsidian Web Clipper na novu razinu

OpenAI iznenada najavljuje "tri u jednom": spajanje preglednika + programiranja + ChatGPT, unutarnje priznanje da su prošlu godinu pogriješili

2026, ne prisiljavajte se na "disciplinu"! Učinite ovih 8 malih stvari, zdravlje će doći prirodno

One effortful mothers who can't lose weight definitely fall here

AI Browser 24-satna stabilna operativna uputa