Google, Deep Think 조용히 업그레이드, ARC-AGI-2 바로 84.6% 달성
Google, Deep Think 조용히 업그레이드, ARC-AGI-2 바로 84.6% 달성
방금, Google DeepMind가 Gemini 3의 전용 추론 모드인 Deep Think를 업그레이드했는데, 점수가 바로 랭킹을 휩쓸었습니다.

알다시피, ARC-AGI-2는 현재 AI 추론 능력을 테스트하는 최첨단 기준으로 인정받고 있으며, 이전에는 이 기준에서 특별히 좋은 점수를 받은 모델이 없었습니다.

하지만 업그레이드된 Deep Think는 84.6%를 달성했습니다. 비교해 보면 Claude Opus 4.6은 68.8%, GPT-5.2는 52.9%, 심지어 자체 Gemini 3 Pro Preview도 31.1%에 불과합니다.
엄청난 향상입니다.
추론 그 이상
Deep Think의 야망은 분명히 추론에만 그치지 않습니다.

Humanity's Last Exam이라는 소위 '인류 최후의 시험' 기준에서 Deep Think는 **48.4%**를 달성했습니다. 이 테스트는 수학, 과학 및 공학 분야에서 가장 어려운 문제를 다룹니다. Claude Opus 4.6은 40.0%, GPT-5.2는 34.5%를 얻었습니다.
프로그래밍 측면에서도 매우 강력합니다.
Codeforces에서 Deep Think는 Elo 3455에 도달한 반면, Gemini 3 Pro Preview는 2512, Claude Opus 4.6은 2352입니다.

또한 다중 모드 이해 및 추론의 MMMU-Pro 기준에서 Deep Think는 **81.5%**로 선두를 달리고 있지만, 여기서는 각 회사의 격차가 크지 않습니다. Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%입니다.

점수 외에도 Deep Think는 2025년 물리 및 화학 올림피아드 필기 시험에서 금메달 수준의 성적을 거두었습니다.
과학 문제 해결
Google DeepMind는 이번에 업그레이드된 Deep Think가 단순히 문제 해결 기계가 아니라 실제 세계의 과학 및 엔지니어링 문제를 해결하는 것이라고 특별히 강조했습니다.

그들은 Duke 대학 Wang Lab의 사례를 보여주었습니다. 연구원들은 Deep Think를 사용하여 새로운 반도체 재료를 설계하고 복잡한 결정의 성장 과정을 최적화했습니다. 이러한 결정은 고온 반도체의 후보 재료입니다.


또한 기계 공학 분야의 연구자들은 이를 사용하여 물리적 프로토타입을 반복하여 하드웨어 반복이 소프트웨어 반복 속도에 도달하도록 했습니다. 이는 보조 장치 등 분야에서 더 빠른 개선 주기를 의미합니다.
사용 방법
업그레이드된 Deep Think 모드는 현재 Gemini App에서 Google AI Ultra 구독 사용자에게 푸시되기 시작했습니다.

연구원 및 개발자를 위해 Google은 Vertex AI 조기 액세스 프로그램을 개방하여 API를 통해 사용할 수 있습니다.
Vertex AI 조기 액세스: https://goo.gle/4rMHUlq





