Google po cichu ulepszył Deep Think, ARC-AGI-2 bezpośrednio do 84,6%

Niedawno Google DeepMind ulepszył dedykowany tryb wnioskowania Gemini 3, Deep Think, a wyniki bezpośrednio zmiażdżyły konkurencję.

Deep Think

Warto zauważyć, że ARC-AGI-2 jest obecnie uznawany za wiodący benchmark testujący zdolności wnioskowania AI, a wcześniej żaden model nie był w stanie uzyskać na nim szczególnie dobrych wyników.

基准对比

Natomiast ulepszony Deep Think osiągnął 84,6%. Dla porównania: Claude Opus 4.6 ma 68,8%, GPT-5.2 ma 52,9%, a nawet własny Gemini 3 Pro Preview ma tylko 31,1%.

Ogromny wzrost.

Nie tylko wnioskowanie

Ambicje Deep Think wykraczają poza samo wnioskowanie.

不止推理

W Humanity's Last Exam, benchmarku nazywanym „ostatnim egzaminem ludzkości”, Deep Think uzyskał 48,4%. Ten test obejmuje najtrudniejsze problemy z matematyki, nauk ścisłych i inżynierii. Claude Opus 4.6 uzyskał 40,0%, a GPT-5.2 34,5%.

Programowanie również jest mocne:

Na Codeforces Deep Think osiągnął Elo 3455, podczas gdy Gemini 3 Pro Preview ma 2512, a Claude Opus 4.6 2352.

Codeforces

Ponadto, w benchmarku MMMU-Pro dotyczącym multimodalnego rozumienia i wnioskowania, Deep Think również prowadzi z wynikiem 81,5%, chociaż różnice między poszczególnymi modelami nie są tutaj tak duże: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

MMMU-Pro

Oprócz wyników benchmarków, Deep Think uzyskał również wynik na poziomie złotego medalu w części pisemnej Olimpiady Fizycznej i Chemicznej w 2025 roku.

Rozwiązywanie problemów naukowych

Google DeepMind tym razem szczególnie podkreśla, że ulepszony Deep Think nie jest już tylko maszyną do rozwiązywania zadań, ale ma rozwiązywać rzeczywiste problemy naukowe i inżynieryjne.

科学问题

Przedstawili przykład Wang Lab z Duke University: naukowcy wykorzystują Deep Think do projektowania nowych materiałów półprzewodnikowych, optymalizując proces wzrostu złożonych kryształów, które są kandydatami na materiały półprzewodnikowe wysokotemperaturowe.

Duke案例

机械工程

Ponadto badacze z dziedziny inżynierii mechanicznej wykorzystują go do iteracji fizycznych prototypów, umożliwiając iterację sprzętu z prędkością iteracji oprogramowania, co w dziedzinach takich jak urządzenia pomocnicze oznacza szybsze cykle ulepszeń.

Jak używać

Ulepszony tryb Deep Think jest teraz wdrażany w aplikacji Gemini dla subskrybentów Google AI Ultra.

如何使用

Dla naukowców i programistów Google udostępnił program wczesnego dostępu Vertex AI, z którego można korzystać za pośrednictwem API.

Vertex AI 早期访问：https://goo.gle/4rMHUlq

Google po cichu ulepszył Deep Think, ARC-AGI-2 bezpośrednio do 84,6%

Google po cichu ulepszył Deep Think, ARC-AGI-2 bezpośrednio do 84,6%

Nie tylko wnioskowanie

Rozwiązywanie problemów naukowych

Jak używać

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian wprowadził Defuddle, podnosząc Obsidian Web Clipper na nowy poziom

OpenAI nagle ogłasza "trzy w jednym": połączenie przeglądarki + programowania + ChatGPT, wewnętrznie przyznaje, że w ciągu ostatniego roku popełniło błąd

2026, nie zmuszaj się do 'dyscypliny'! Zrób te 8 małych rzeczy, a zdrowie przyjdzie naturalnie

Te mamy, które ciężko pracują nad odchudzaniem, ale nie mogą schudnąć, na pewno mają problem tutaj

AI Browser 24小时稳定运行指南