Google uuendas vaikselt Deep Think'i, ARC-AGI-2 saavutas kohe 84,6%

Just äsja uuendas Google DeepMind Gemini 3 spetsiaalset järeldusrežiimi Deep Think, tulemused on kohe edetabeli tipus.

Deep Think

Tuleb teada, et ARC-AGI-2 on praegu üldtunnustatud AI järeldusvõime testimise esirinnas olev etalon, varem ei suutnud ükski mudel sellel eriti häid tulemusi saada.

基准对比

Ja uuendatud Deep Think saavutas 84,6%, võrdluseks: Claude Opus 4.6 on 68,8%, GPT-5.2 on 52,9%, isegi nende enda Gemini 3 Pro Preview on ainult 31,1%.

Suur edasiminek.

Rohkem kui ainult järeldamine

Deep Think'i ambitsioonid on ilmselgelt suuremad kui ainult järeldamine.

不止推理

Humanity's Last Exam etalonil, mida nimetatakse "inimkonna viimaseks eksamiks", saavutas Deep Think 48,4%, see test hõlmab matemaatika, teaduse ja insenerivaldkonna kõige raskemaid küsimusi. Claude Opus 4.6 sai 40,0% ja GPT-5.2 34,5%.

Programmeerimise osas on see samuti väga hea:

Codeforces'is saavutas Deep Think Elo 3455, samas kui Gemini 3 Pro Preview on 2512 ja Claude Opus 4.6 on 2352.

Codeforces

Lisaks on Deep Think multimodality mõistmise ja järeldamise MMMU-Pro etalonil 81,5% juhtpositsioonil, kuid siin ei ole erinevused nii suured: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

MMMU-Pro

Lisaks tulemustele sai Deep Think 2025. aasta füüsika- ja keemiaolümpiaadi kirjalikus osas kuldmedali tasemel tulemused.

Teadusprobleemide lahendamine

Google DeepMind rõhutas seekord eriti, et uuendatud Deep Think ei ole enam lihtsalt probleemide lahendamise masin, vaid peab lahendama reaalse maailma teadus- ja inseneriprobleeme.

科学问题

Nad tutvustasid Duke'i ülikooli Wang Lab'i juhtumit: teadlased kasutasid Deep Think'i uute pooljuhtmaterjalide projekteerimiseks, keerukate kristallide kasvamise protsessi optimeerimiseks, need kristallid on kõrge temperatuuriga pooljuhtide kandidaadid.

Duke案例

机械工程

Samuti kasutavad masinaehituse valdkonna teadlased seda füüsiliste prototüüpide itereerimiseks, võimaldades riistvara iteratsioonil saavutada tarkvara iteratsiooni kiiruse, mis tähendab abiseadmete ja muude valdkondade jaoks kiiremaid täiustustsükleid.

Kuidas kasutada

Uuendatud Deep Think režiimi hakatakse nüüd Gemini App'is Google AI Ultra tellijatele välja saatma.

如何使用

Teadlastele ja arendajatele on Google avanud Vertex AI varajase juurdepääsu programmi, mida saab kasutada API kaudu.

Vertex AI varajane juurdepääs: https://goo.gle/4rMHUlq

Google uuendas vaikselt Deep Think'i, ARC-AGI-2 saavutas kohe 84,6%

Google uuendas vaikselt Deep Think'i, ARC-AGI-2 saavutas kohe 84,6%

Rohkem kui ainult järeldamine

Teadusprobleemide lahendamine

Kuidas kasutada

You Might Also Like

Claude Code Buddy muutmise juhend: Kuidas saada sädelevat legendaarset lemmiklooma

Obsidian tutvustas Defuddle'i, viies Obsidian Web Clipperi uuele tasemele

OpenAI üllatavalt kuulutas välja "kolme ühes": brauser + programmeerimine + ChatGPT ühinemine, siseinfo tunnistab, et eelmisel aastal tehti valeotsuseid

2026, ära sunni end "distsipliini"! Tee need 8 väikest asja, tervis tuleb loomulikult

Need emad, kes püüavad kaalust alla võtta, kuid ei saa seda teha, on kindlasti siin kinni jäänud

AI Brauser 24 tunni stabiilse töö juhend