Google, Deep Think 조용히 업그레이드, ARC-AGI-2 바로 84.6% 달성

2/14/2026
2 min read

Google, Deep Think 조용히 업그레이드, ARC-AGI-2 바로 84.6% 달성

방금, Google DeepMind가 Gemini 3의 전용 추론 모드인 Deep Think를 업그레이드했는데, 점수가 바로 랭킹을 휩쓸었습니다.

Deep Think

알다시피, ARC-AGI-2는 현재 AI 추론 능력을 테스트하는 최첨단 기준으로 인정받고 있으며, 이전에는 이 기준에서 특별히 좋은 점수를 받은 모델이 없었습니다.

基准对比

하지만 업그레이드된 Deep Think는 84.6%를 달성했습니다. 비교해 보면 Claude Opus 4.6은 68.8%, GPT-5.2는 52.9%, 심지어 자체 Gemini 3 Pro Preview도 31.1%에 불과합니다.

엄청난 향상입니다.

추론 그 이상

Deep Think의 야망은 분명히 추론에만 그치지 않습니다.

不止推理

Humanity's Last Exam이라는 소위 '인류 최후의 시험' 기준에서 Deep Think는 **48.4%**를 달성했습니다. 이 테스트는 수학, 과학 및 공학 분야에서 가장 어려운 문제를 다룹니다. Claude Opus 4.6은 40.0%, GPT-5.2는 34.5%를 얻었습니다.

프로그래밍 측면에서도 매우 강력합니다.

Codeforces에서 Deep Think는 Elo 3455에 도달한 반면, Gemini 3 Pro Preview는 2512, Claude Opus 4.6은 2352입니다.

Codeforces

또한 다중 모드 이해 및 추론의 MMMU-Pro 기준에서 Deep Think는 **81.5%**로 선두를 달리고 있지만, 여기서는 각 회사의 격차가 크지 않습니다. Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%입니다.

MMMU-Pro

점수 외에도 Deep Think는 2025년 물리 및 화학 올림피아드 필기 시험에서 금메달 수준의 성적을 거두었습니다.

과학 문제 해결

Google DeepMind는 이번에 업그레이드된 Deep Think가 단순히 문제 해결 기계가 아니라 실제 세계의 과학 및 엔지니어링 문제를 해결하는 것이라고 특별히 강조했습니다.

科学问题

그들은 Duke 대학 Wang Lab의 사례를 보여주었습니다. 연구원들은 Deep Think를 사용하여 새로운 반도체 재료를 설계하고 복잡한 결정의 성장 과정을 최적화했습니다. 이러한 결정은 고온 반도체의 후보 재료입니다.

Duke案例

机械工程

또한 기계 공학 분야의 연구자들은 이를 사용하여 물리적 프로토타입을 반복하여 하드웨어 반복이 소프트웨어 반복 속도에 도달하도록 했습니다. 이는 보조 장치 등 분야에서 더 빠른 개선 주기를 의미합니다.

사용 방법

업그레이드된 Deep Think 모드는 현재 Gemini App에서 Google AI Ultra 구독 사용자에게 푸시되기 시작했습니다.

如何使用

연구원 및 개발자를 위해 Google은 Vertex AI 조기 액세스 프로그램을 개방하여 API를 통해 사용할 수 있습니다.

Vertex AI 조기 액세스: https://goo.gle/4rMHUlq

Published in Technology

You Might Also Like

클라우드 컴퓨팅 기술 사용 방법: 첫 번째 클라우드 인프라 구축 완벽 가이드Technology

클라우드 컴퓨팅 기술 사용 방법: 첫 번째 클라우드 인프라 구축 완벽 가이드

클라우드 컴퓨팅 기술 사용 방법: 첫 번째 클라우드 인프라 구축 완벽 가이드 서론 디지털 전환이 가속화됨에 따라 클라우드 컴퓨팅은 기업과 개발자들이 선호하는 솔루션이 되었습니다. 클라우드 컴퓨팅을 통해 사용자는 애플...

경고! Claude Code의 아버지, 1개월 후 Plan Mode를 사용하지 않으면 소프트웨어 엔지니어 직함이 사라질 것이라고 단언하다Technology

경고! Claude Code의 아버지, 1개월 후 Plan Mode를 사용하지 않으면 소프트웨어 엔지니어 직함이 사라질 것이라고 단언하다

경고! Claude Code의 아버지, 1개월 후 Plan Mode를 사용하지 않으면 소프트웨어 엔지니어 직함이 사라질 것이라고 단언하다 최근 YC의 원탁 인터뷰가 기술계에서 화제가 되었습니다——Claude Cod...

2026년 Top 10 심층 학습 자원 추천Technology

2026년 Top 10 심층 학습 자원 추천

2026년 Top 10 심층 학습 자원 추천 심층 학습이 다양한 분야에서 빠르게 발전함에 따라, 점점 더 많은 학습 자원과 도구가 등장하고 있습니다. 본문에서는 2026년 가장 주목할 만한 10개의 심층 학습 자원을...

2026년 Top 10 AI 에이전트: 핵심 판매 포인트 분석Technology

2026년 Top 10 AI 에이전트: 핵심 판매 포인트 분석

2026년 Top 10 AI 에이전트: 핵심 판매 포인트 분석 서론 인공지능의 빠른 발전과 함께 AI 에이전트(AI Agents)는 기술 분야의 핫 이슈가 되었습니다. 점점 더 많은 개발자와 기업들이 이러한 스마트 ...

2026년 Top 10 AI 도구 추천: 인공지능의 진정한 잠재력 발휘하기Technology

2026년 Top 10 AI 도구 추천: 인공지능의 진정한 잠재력 발휘하기

2026년 Top 10 AI 도구 추천: 인공지능의 진정한 잠재력 발휘하기 기술이 빠르게 발전하는 오늘날, 인공지능(AI)은 각 산업에서 인기 있는 주제가 되었습니다. 의료 건강에서 금융 서비스, 교육에서 엔터테인먼...

2026년 Top 10 AWS 도구 및 리소스 추천Technology

2026년 Top 10 AWS 도구 및 리소스 추천

2026년 Top 10 AWS 도구 및 리소스 추천 빠르게 발전하는 클라우드 컴퓨팅 분야에서 Amazon Web Services (AWS)는 선두주자로서 풍부한 서비스와 도구를 제공하여 개발자, 기업 및 기술 전문가...