Google Kimya kimya Yaboresha Deep Think, ARC-AGI-2 Yafika 84.6% Moja kwa Moja
Google Kimya kimya Yaboresha Deep Think, ARC-AGI-2 Yafika 84.6% Moja kwa Moja
Hivi punde, Google DeepMind imeboresha hali maalum ya uelekezaji ya Gemini 3, Deep Think, na matokeo yamekuwa ya kushangaza.

Ikumbukwe kwamba, ARC-AGI-2 kwa sasa inatambulika kama kigezo cha kisasa cha kupima uwezo wa AI wa kutoa hitimisho, na hakuna modeli iliyowahi kupata alama nzuri sana hapo awali.

Na Deep Think iliyoboreshwa imepata 84.6%, kwa kulinganisha: Claude Opus 4.6 ni 68.8%, GPT-5.2 ni 52.9%, na hata Gemini 3 Pro Preview yao wenyewe ni 31.1% tu.
Uboreshaji mkubwa.
Zaidi ya Kutoa Hitimisho
Malengo ya Deep Think yanaonekana kuwa zaidi ya kutoa hitimisho.

Katika Humanity's Last Exam, ambayo inajulikana kama "mtihani wa mwisho wa wanadamu", Deep Think imepata 48.4%, mtihani huu unashughulikia maswali magumu zaidi katika nyanja za hisabati, sayansi na uhandisi. Claude Opus 4.6 ilipata 40.0%, na GPT-5.2 ilikuwa 34.5%.
Upande wa upangaji programu pia ni mzuri:
Kwenye Codeforces, Deep Think imefikia Elo 3455, wakati Gemini 3 Pro Preview ni 2512, na Claude Opus 4.6 ni 2352.

Pia, kwenye kigezo cha MMMU-Pro cha uelewa na utoaji hitimisho wa aina nyingi, Deep Think pia inaongoza kwa 81.5%, lakini hapa tofauti kati ya kila kampuni sio kubwa sana: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

Mbali na matokeo, Deep Think pia imepata kiwango cha medali ya dhahabu katika sehemu ya mtihani wa maandishi ya Mashindano ya Olimpiki ya Fizikia na Kemia ya 2025.
Kutatua Masuala ya Kisayansi
Google DeepMind imesisitiza haswa wakati huu kwamba, Deep Think iliyoboreshwa sio mashine ya kutatua matatizo tu, bali inalenga kutatua masuala ya kisayansi na kihandisi ya ulimwengu halisi.

Walionyesha mfano wa Wang Lab wa Chuo Kikuu cha Duke: Watafiti walitumia Deep Think kubuni vifaa vipya vya semiconductor, kuboresha mchakato mgumu wa ukuaji wa fuwele, fuwele hizi ni vifaa vinavyoweza kutumika kama semiconductor za joto la juu.


Pia, watafiti katika uwanja wa uhandisi wa mitambo wameitumia kurudia prototypes za kimwili, na kufanya marudio ya vifaa kufikia kasi ya marudio ya programu, ambayo inamaanisha mzunguko wa uboreshaji wa haraka katika maeneo kama vile vifaa saidizi.
Jinsi ya Kutumia
Hali ya Deep Think iliyoboreshwa sasa imeanza kusukumwa kwa watumiaji waliojisajili kwa Google AI Ultra katika Gemini App.

Kwa watafiti na watengenezaji, Google imefungua mpango wa ufikiaji wa mapema wa Vertex AI, ambao unaweza kutumika kupitia API.
Vertex AI 早期访问:https://goo.gle/4rMHUlq (Ufikiaji wa Mapema wa Vertex AI: https://goo.gle/4rMHUlq)





