Google po cichu ulepszył Deep Think, ARC-AGI-2 bezpośrednio do 84,6%

2/14/2026
2 min read

Google po cichu ulepszył Deep Think, ARC-AGI-2 bezpośrednio do 84,6%

Niedawno Google DeepMind ulepszył dedykowany tryb wnioskowania Gemini 3, Deep Think, a wyniki bezpośrednio zmiażdżyły konkurencję.

Deep Think

Warto zauważyć, że ARC-AGI-2 jest obecnie uznawany za wiodący benchmark testujący zdolności wnioskowania AI, a wcześniej żaden model nie był w stanie uzyskać na nim szczególnie dobrych wyników.

基准对比

Natomiast ulepszony Deep Think osiągnął 84,6%. Dla porównania: Claude Opus 4.6 ma 68,8%, GPT-5.2 ma 52,9%, a nawet własny Gemini 3 Pro Preview ma tylko 31,1%.

Ogromny wzrost.

Nie tylko wnioskowanie

Ambicje Deep Think wykraczają poza samo wnioskowanie.

不止推理

W Humanity's Last Exam, benchmarku nazywanym „ostatnim egzaminem ludzkości”, Deep Think uzyskał 48,4%. Ten test obejmuje najtrudniejsze problemy z matematyki, nauk ścisłych i inżynierii. Claude Opus 4.6 uzyskał 40,0%, a GPT-5.2 34,5%.

Programowanie również jest mocne:

Na Codeforces Deep Think osiągnął Elo 3455, podczas gdy Gemini 3 Pro Preview ma 2512, a Claude Opus 4.6 2352.

Codeforces

Ponadto, w benchmarku MMMU-Pro dotyczącym multimodalnego rozumienia i wnioskowania, Deep Think również prowadzi z wynikiem 81,5%, chociaż różnice między poszczególnymi modelami nie są tutaj tak duże: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

MMMU-Pro

Oprócz wyników benchmarków, Deep Think uzyskał również wynik na poziomie złotego medalu w części pisemnej Olimpiady Fizycznej i Chemicznej w 2025 roku.

Rozwiązywanie problemów naukowych

Google DeepMind tym razem szczególnie podkreśla, że ulepszony Deep Think nie jest już tylko maszyną do rozwiązywania zadań, ale ma rozwiązywać rzeczywiste problemy naukowe i inżynieryjne.

科学问题

Przedstawili przykład Wang Lab z Duke University: naukowcy wykorzystują Deep Think do projektowania nowych materiałów półprzewodnikowych, optymalizując proces wzrostu złożonych kryształów, które są kandydatami na materiały półprzewodnikowe wysokotemperaturowe.

Duke案例

机械工程

Ponadto badacze z dziedziny inżynierii mechanicznej wykorzystują go do iteracji fizycznych prototypów, umożliwiając iterację sprzętu z prędkością iteracji oprogramowania, co w dziedzinach takich jak urządzenia pomocnicze oznacza szybsze cykle ulepszeń.

Jak używać

Ulepszony tryb Deep Think jest teraz wdrażany w aplikacji Gemini dla subskrybentów Google AI Ultra.

如何使用

Dla naukowców i programistów Google udostępnił program wczesnego dostępu Vertex AI, z którego można korzystać za pośrednictwem API.

Vertex AI 早期访问:https://goo.gle/4rMHUlq

Published in Technology

You Might Also Like

Jak korzystać z technologii chmury obliczeniowej: Kompletny przewodnik po budowie pierwszej infrastruktury chmurowejTechnology

Jak korzystać z technologii chmury obliczeniowej: Kompletny przewodnik po budowie pierwszej infrastruktury chmurowej

Jak korzystać z technologii chmury obliczeniowej: Kompletny przewodnik po budowie pierwszej infrastruktury chmurowej Wpr...

Ostrzeżenie! Twórca Claude Code mówi wprost: za miesiąc bez trybu planowania tytuł inżyniera oprogramowania zniknieTechnology

Ostrzeżenie! Twórca Claude Code mówi wprost: za miesiąc bez trybu planowania tytuł inżyniera oprogramowania zniknie

Ostrzeżenie! Twórca Claude Code mówi wprost: za miesiąc bez trybu planowania tytuł inżyniera oprogramowania zniknie Ost...

2026年 Top 10 深度学习资源推荐Technology

2026年 Top 10 深度学习资源推荐

2026年 Top 10 深度学习资源推荐 随着深度学习在各个领域的迅速发展,越来越多的学习资源和工具涌现出来。本文将为您推荐2026年最值得关注的十个深度学习资源,帮助您在这一领域中快速成长。 1. Coursera Deep Learn...

2026年 Top 10 AI 代理:核心卖点解析Technology

2026年 Top 10 AI 代理:核心卖点解析

2026年 Top 10 AI 代理:核心卖点解析 引言 随着人工智能的快速发展,AI 代理(AI Agents)已成为技术领域的热点话题。越来越多的开发者和企业开始探索如何利用这些智能代理提升工作效率和业务盈利。但在众多的 AI 代理解决...

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力Technology

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力 W dzisiejszych czasach, gdy technologia rozwija się w zawrotnym tempie, sztuczna inteli...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 W szybko rozwijającym się obszarze chmury obliczeniowej, Amazon Web Services (AWS) jest liderem,...