Google po cichu ulepszył Deep Think, ARC-AGI-2 bezpośrednio do 84,6%
Google po cichu ulepszył Deep Think, ARC-AGI-2 bezpośrednio do 84,6%
Niedawno Google DeepMind ulepszył dedykowany tryb wnioskowania Gemini 3, Deep Think, a wyniki bezpośrednio zmiażdżyły konkurencję.

Warto zauważyć, że ARC-AGI-2 jest obecnie uznawany za wiodący benchmark testujący zdolności wnioskowania AI, a wcześniej żaden model nie był w stanie uzyskać na nim szczególnie dobrych wyników.

Natomiast ulepszony Deep Think osiągnął 84,6%. Dla porównania: Claude Opus 4.6 ma 68,8%, GPT-5.2 ma 52,9%, a nawet własny Gemini 3 Pro Preview ma tylko 31,1%.
Ogromny wzrost.
Nie tylko wnioskowanie
Ambicje Deep Think wykraczają poza samo wnioskowanie.

W Humanity's Last Exam, benchmarku nazywanym „ostatnim egzaminem ludzkości”, Deep Think uzyskał 48,4%. Ten test obejmuje najtrudniejsze problemy z matematyki, nauk ścisłych i inżynierii. Claude Opus 4.6 uzyskał 40,0%, a GPT-5.2 34,5%.
Programowanie również jest mocne:
Na Codeforces Deep Think osiągnął Elo 3455, podczas gdy Gemini 3 Pro Preview ma 2512, a Claude Opus 4.6 2352.

Ponadto, w benchmarku MMMU-Pro dotyczącym multimodalnego rozumienia i wnioskowania, Deep Think również prowadzi z wynikiem 81,5%, chociaż różnice między poszczególnymi modelami nie są tutaj tak duże: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

Oprócz wyników benchmarków, Deep Think uzyskał również wynik na poziomie złotego medalu w części pisemnej Olimpiady Fizycznej i Chemicznej w 2025 roku.
Rozwiązywanie problemów naukowych
Google DeepMind tym razem szczególnie podkreśla, że ulepszony Deep Think nie jest już tylko maszyną do rozwiązywania zadań, ale ma rozwiązywać rzeczywiste problemy naukowe i inżynieryjne.

Przedstawili przykład Wang Lab z Duke University: naukowcy wykorzystują Deep Think do projektowania nowych materiałów półprzewodnikowych, optymalizując proces wzrostu złożonych kryształów, które są kandydatami na materiały półprzewodnikowe wysokotemperaturowe.


Ponadto badacze z dziedziny inżynierii mechanicznej wykorzystują go do iteracji fizycznych prototypów, umożliwiając iterację sprzętu z prędkością iteracji oprogramowania, co w dziedzinach takich jak urządzenia pomocnicze oznacza szybsze cykle ulepszeń.
Jak używać
Ulepszony tryb Deep Think jest teraz wdrażany w aplikacji Gemini dla subskrybentów Google AI Ultra.

Dla naukowców i programistów Google udostępnił program wczesnego dostępu Vertex AI, z którego można korzystać za pośrednictwem API.
Vertex AI 早期访问:https://goo.gle/4rMHUlq





