Google тивко го надгради Deep Think, ARC-AGI-2 директно до 84.6%

2/14/2026
3 min read

Google тивко го надгради Deep Think, ARC-AGI-2 директно до 84.6%

Само што, Google DeepMind го надгради специјалниот режим за заклучување на Gemini 3, Deep Think, и директно ги собори сите рекорди.

Deep Think

Треба да се знае дека ARC-AGI-2 е моментално признат како водечки стандард за тестирање на способностите за заклучување на вештачката интелигенција, и претходно ниту еден модел не успеа да постигне особено добри резултати на него.

基准对比

А надградениот Deep Think постигна 84.6%, споредено со: Claude Opus 4.6 е 68.8%, GPT-5.2 е 52.9%, па дури и сопствениот Gemini 3 Pro Preview е само 31.1%.

Огромен напредок.

Не само заклучување

Амбициите на Deep Think очигледно не се ограничени само на заклучување.

不止推理

На Humanity's Last Exam, кој се нарекува „последниот испит на човештвото“, Deep Think постигна 48.4%, овој тест ги покрива најтешките проблеми во математиката, науката и инженерството. Claude Opus 4.6 постигна 40.0%, а GPT-5.2 е 34.5%.

Програмирањето е исто така многу силно:

На Codeforces, Deep Think достигна Elo 3455, додека Gemini 3 Pro Preview е 2512, а Claude Opus 4.6 е 2352.

Codeforces

Исто така, на MMMU-Pro стандардот за мултимодално разбирање и заклучување, Deep Think исто така води со 81.5%, но тука разликите меѓу компаниите не се толку големи: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Покрај резултатите, Deep Think исто така постигна резултат на ниво на златен медал на писмениот дел од Олимпијадата по физика и хемија во 2025 година.

Да се решат научни проблеми

Google DeepMind овој пат посебно нагласи дека надградениот Deep Think повеќе не е само машина за решавање проблеми, туку треба да решава научни и инженерски проблеми од реалниот свет.

科学问题

Тие го покажаа случајот на Wang Lab од Универзитетот Duke: истражувачите користат Deep Think за да дизајнираат нови полупроводнички материјали и да го оптимизираат процесот на раст на сложени кристали, кои се кандидатски материјали за полупроводници со висока температура.

Duke案例 机械工程

Исто така, истражувачите во областа на машинското инженерство го користат за да ги повторуваат физичките прототипови, овозможувајќи хардверската итерација да ја достигне брзината на софтверската итерација, што значи побрз циклус на подобрување во области како што се помошните уреди.

Како да се користи

Надградениот режим Deep Think сега започна да се промовира во апликацијата Gemini на корисниците на претплата на Google AI Ultra.

如何使用

За истражувачите и програмерите, Google отвори Програма за ран пристап до Vertex AI, која може да се користи преку API.

Vertex AI 早期访问:https://goo.gle/4rMHUlq

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy измена упатство: Како да добиете сјаен легендарен милениче

Claude Code Buddy измена упатство: Како да добиете сјаен легендарен милениче На 1 април 2026 година, Anthropic во верзиј...

Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново нивоTechnology

Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново ниво

Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново ниво Уште од почетокот, многу ми се допаѓа осно...

OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешниот пат во изминатата годинаTechnology

OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешниот пат во изминатата година

OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешн...

2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природноHealth

2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природно

2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природно Нова година ...

Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тукаHealth

Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тука

Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тука Март веќе помина наполовина, како напреду...

📝
Technology

AI Browser 24 часов стабилно работење водич

AI Browser 24 часов стабилно работење водич Овој туторијал објаснува како да се постави стабилна, долгорочна средина за ...