Google, Deep Think 조용히 업그레이드, ARC-AGI-2 바로 84.6% 달성

2/14/2026

2 min read

Google, Deep Think 조용히 업그레이드, ARC-AGI-2 바로 84.6% 달성

방금, Google DeepMind가 Gemini 3의 전용 추론 모드인 Deep Think를 업그레이드했는데, 점수가 바로 랭킹을 휩쓸었습니다.

Deep Think

알다시피, ARC-AGI-2는 현재 AI 추론 능력을 테스트하는 최첨단 기준으로 인정받고 있으며, 이전에는 이 기준에서 특별히 좋은 점수를 받은 모델이 없었습니다.

基准对比

하지만 업그레이드된 Deep Think는 84.6%를 달성했습니다. 비교해 보면 Claude Opus 4.6은 68.8%, GPT-5.2는 52.9%, 심지어 자체 Gemini 3 Pro Preview도 31.1%에 불과합니다.

엄청난 향상입니다.

추론 그 이상

Deep Think의 야망은 분명히 추론에만 그치지 않습니다.

不止推理

Humanity's Last Exam이라는 소위 '인류 최후의 시험' 기준에서 Deep Think는 **48.4%**를 달성했습니다. 이 테스트는 수학, 과학 및 공학 분야에서 가장 어려운 문제를 다룹니다. Claude Opus 4.6은 40.0%, GPT-5.2는 34.5%를 얻었습니다.

프로그래밍 측면에서도 매우 강력합니다.

Codeforces에서 Deep Think는 Elo 3455에 도달한 반면, Gemini 3 Pro Preview는 2512, Claude Opus 4.6은 2352입니다.

Codeforces

또한 다중 모드 이해 및 추론의 MMMU-Pro 기준에서 Deep Think는 **81.5%**로 선두를 달리고 있지만, 여기서는 각 회사의 격차가 크지 않습니다. Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%입니다.

MMMU-Pro

점수 외에도 Deep Think는 2025년 물리 및 화학 올림피아드 필기 시험에서 금메달 수준의 성적을 거두었습니다.

과학 문제 해결

Google DeepMind는 이번에 업그레이드된 Deep Think가 단순히 문제 해결 기계가 아니라 실제 세계의 과학 및 엔지니어링 문제를 해결하는 것이라고 특별히 강조했습니다.

科学问题

그들은 Duke 대학 Wang Lab의 사례를 보여주었습니다. 연구원들은 Deep Think를 사용하여 새로운 반도체 재료를 설계하고 복잡한 결정의 성장 과정을 최적화했습니다. 이러한 결정은 고온 반도체의 후보 재료입니다.

Duke案例

机械工程

또한 기계 공학 분야의 연구자들은 이를 사용하여 물리적 프로토타입을 반복하여 하드웨어 반복이 소프트웨어 반복 속도에 도달하도록 했습니다. 이는 보조 장치 등 분야에서 더 빠른 개선 주기를 의미합니다.

사용 방법

업그레이드된 Deep Think 모드는 현재 Gemini App에서 Google AI Ultra 구독 사용자에게 푸시되기 시작했습니다.

如何使用

연구원 및 개발자를 위해 Google은 Vertex AI 조기 액세스 프로그램을 개방하여 API를 통해 사용할 수 있습니다.

Vertex AI 조기 액세스: https://goo.gle/4rMHUlq

Published in Technology

You Might Also Like

Claude Code Buddy 수정 가이드: 어떻게 반짝이는 전설급 애완동물을 얻을 수 있을까

Claude Code Buddy 수정 가이드: 어떻게 반짝이는 전설급 애완동물을 얻을 수 있을까 2026년 4월 1일, Anthropic은 Claude Code 2.1.89 버전에서 조용히 이스터 에그 기능인 /bu...

Obsidian이 Defuddle을 출시하여 Obsidian Web Clipper를 새로운 차원으로 끌어올리다

Obsidian이 Defuddle을 출시하여 Obsidian Web Clipper를 새로운 차원으로 끌어올리다

Obsidian이 Defuddle을 출시하여 Obsidian Web Clipper를 새로운 차원으로 끌어올리다 저는 Obsidian의 핵심 이념인 로컬 우선, 모든 것이 파일이라는 점, 그리고 단순한 Markdow...

OpenAI가 갑자기 발표한 '삼합일': 브라우저 + 프로그래밍 + ChatGPT 통합, 내부에서 지난 1년이 잘못되었다고 인정하다

OpenAI가 갑자기 발표한 '삼합일': 브라우저 + 프로그래밍 + ChatGPT 통합, 내부에서 지난 1년이 잘못되었다고 인정하다

OpenAI가 갑자기 발표한 '삼합일': 브라우저 + 프로그래밍 + ChatGPT 통합, 내부에서 지난 1년이 잘못되었다고 인정하다 2026년 3월 19일 심야, OpenAI 본사에서 내부 메모가 유출되었고, 《월...

2026, 더 이상 스스로를 '자율'하게 강요하지 마세요! 이 8가지 작은 일을 잘하면 건강이 자연스럽게 찾아옵니다

2026, 더 이상 스스로를 '자율'하게 강요하지 마세요! 이 8가지 작은 일을 잘하면 건강이 자연스럽게 찾아옵니다

2026, 더 이상 스스로를 '자율'하게 강요하지 마세요! 이 8가지 작은 일을 잘하면 건강이 자연스럽게 찾아옵니다 새로운 한 해가 시작되었습니다. 작년에 세운 목표는 달성하셨나요? 매년 '의욕이 넘치'고 '포기하...

노력해도 살이 빠지지 않는 엄마들, 여기서 모두 실패한다

노력해도 살이 빠지지 않는 엄마들, 여기서 모두 실패한다

노력해도 살이 빠지지 않는 엄마들, 여기서 모두 실패한다 3월이 이미 반이 지났습니다. 당신의 다이어트 계획은 어떻게 되어가고 있나요? 살이 빠졌나요? 얼마나 빠졌나요? 나의 다이어트 경험 2월 말에 다이어트를 ...

AI 브라우저 24시간 안정적 운영 가이드

AI 브라우저 24시간 안정적 운영 가이드 본 튜토리얼은 안정적이고 장기적으로 운영되는 AI 브라우저 환경을 구축하는 방법을 소개합니다. 적합한 용도 AI 에이전트 자동화 브라우징 웹 자동화 AI 어시스턴트 자동 테...