Google แอบอัปเกรด Deep Think, ARC-AGI-2 พุ่งไปถึง 84.6% โดยตรง

2/14/2026
1 min read

Google แอบอัปเกรด Deep Think, ARC-AGI-2 พุ่งไปถึง 84.6% โดยตรง

เมื่อเร็วๆ นี้ Google DeepMind ได้อัปเกรดโหมดการให้เหตุผลเฉพาะ Deep Think ของ Gemini 3 คะแนนพุ่งทะยานขึ้นอันดับหนึ่งโดยตรง

Deep Think

ต้องรู้ว่า ARC-AGI-2 เป็นเกณฑ์มาตรฐานแนวหน้าสำหรับการทดสอบความสามารถในการให้เหตุผลของ AI ที่ได้รับการยอมรับในปัจจุบัน ก่อนหน้านี้ไม่มีโมเดลใดที่สามารถทำคะแนนได้ดีเป็นพิเศษในเกณฑ์นี้

基准对比

แต่ Deep Think ที่ได้รับการอัปเกรดแล้ว ทำคะแนนได้ 84.6% ลองเปรียบเทียบดู: Claude Opus 4.6 ได้ 68.8%, GPT-5.2 ได้ 52.9% แม้แต่ Gemini 3 Pro Preview ของตัวเองก็ยังได้แค่ 31.1%

พัฒนาขึ้นอย่างมาก

ไม่ใช่แค่การให้เหตุผล

ความทะเยอทะยานของ Deep Think เห็นได้ชัดว่าไม่ได้จำกัดอยู่แค่การให้เหตุผล

不止推理

ในเกณฑ์มาตรฐาน Humanity's Last Exam ที่เรียกกันว่า "การสอบครั้งสุดท้ายของมนุษยชาติ" Deep Think ได้คะแนน 48.4% การทดสอบนี้ครอบคลุมปัญหาที่ยากที่สุดในสาขาคณิตศาสตร์ วิทยาศาสตร์ และวิศวกรรม Claude Opus 4.6 ได้ 40.0%, GPT-5.2 ได้ 34.5%

ด้านการเขียนโปรแกรมก็ยอดเยี่ยมเช่นกัน:

บน Codeforces Deep Think ทำคะแนนได้ถึง Elo 3455 ในขณะที่ Gemini 3 Pro Preview ได้ 2512, Claude Opus 4.6 ได้ 2352

Codeforces

นอกจากนี้ ในเกณฑ์มาตรฐาน MMMU-Pro สำหรับความเข้าใจและการให้เหตุผลแบบหลายรูปแบบ Deep Think ยังนำหน้าด้วยคะแนน 81.5% แต่ความแตกต่างระหว่างแต่ละบริษัทไม่มากนัก: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%

MMMU-Pro

นอกจากคะแนนแล้ว Deep Think ยังได้รับผลการเรียนระดับเหรียญทองในการสอบข้อเขียนของการแข่งขันโอลิมปิกวิชาการฟิสิกส์และเคมีปี 2025

ต้องการแก้ไขปัญหาทางวิทยาศาสตร์

Google DeepMind เน้นย้ำเป็นพิเศษในครั้งนี้ว่า Deep Think ที่ได้รับการอัปเกรดแล้ว ไม่ได้เป็นเพียงเครื่องจักรแก้ปัญหาอีกต่อไป แต่ต้องการแก้ไขปัญหาทางวิทยาศาสตร์และวิศวกรรมในโลกแห่งความเป็นจริง

科学问题

พวกเขาได้แสดงกรณีศึกษาของ Wang Lab แห่งมหาวิทยาลัย Duke: นักวิจัยใช้ Deep Think เพื่อออกแบบวัสดุเซมิคอนดักเตอร์ชนิดใหม่ ปรับกระบวนการเติบโตของผลึกที่ซับซ้อนให้เหมาะสม ซึ่งผลึกเหล่านี้เป็นวัสดุตัวเลือกสำหรับเซมิคอนดักเตอร์ที่มีอุณหภูมิสูง

Duke案例

机械工程

นอกจากนี้ นักวิจัยในสาขาวิศวกรรมเครื่องกลยังใช้มันเพื่อปรับปรุงต้นแบบทางกายภาพ ทำให้การปรับปรุงฮาร์ดแวร์มีความเร็วเท่ากับการปรับปรุงซอฟต์แวร์ ซึ่งในสาขาอุปกรณ์ช่วยเหลือและอื่นๆ หมายถึงรอบการปรับปรุงที่เร็วขึ้น

วิธีการใช้งาน

โหมด Deep Think ที่ได้รับการอัปเกรดแล้วได้เริ่มเปิดตัวใน Gemini App ให้กับผู้ใช้ที่สมัครสมาชิก Google AI Ultra แล้ว

如何使用

สำหรับนักวิจัยและนักพัฒนา Google ได้เปิดตัว Vertex AI Early Access Program ซึ่งสามารถใช้งานผ่าน API ได้

Vertex AI Early Access: https://goo.gle/4rMHUlq

Published in Technology

You Might Also Like

วิธีการใช้เทคโนโลยีคลาวด์คอมพิวติ้ง: คู่มือที่สมบูรณ์ในการสร้างโครงสร้างพื้นฐานคลาวด์แรกของคุณTechnology

วิธีการใช้เทคโนโลยีคลาวด์คอมพิวติ้ง: คู่มือที่สมบูรณ์ในการสร้างโครงสร้างพื้นฐานคลาวด์แรกของคุณ

[[HTMLPLACEHOLDER0]] [[HTMLPLACEHOLDER1]] [[HTMLPLACEHOLDER2]] [[HTMLPLACEHOLDER3]] [[HTMLPLACEHOLDER4]] [[HTMLPLACEHOLD...

เตือนภัย! ผู้ก่อตั้ง Claude Code กล่าวตรงๆ: อีก 1 เดือนถ้าไม่ใช้ Plan Mode ตำแหน่งวิศวกรซอฟต์แวร์จะหายไปTechnology

เตือนภัย! ผู้ก่อตั้ง Claude Code กล่าวตรงๆ: อีก 1 เดือนถ้าไม่ใช้ Plan Mode ตำแหน่งวิศวกรซอฟต์แวร์จะหายไป

เตือนภัย! ผู้ก่อตั้ง Claude Code กล่าวตรงๆ: อีก 1 เดือนถ้าไม่ใช้ Plan Mode ตำแหน่งวิศวกรซอฟต์แวร์จะหายไป เมื่อเร็วๆ นี้...

2026年 Top 10 深度学习资源推荐Technology

2026年 Top 10 深度学习资源推荐

2026年 Top 10 深度学习资源推荐 随着深度学习在各个领域的迅速发展,越来越多的学习资源和工具涌现出来。本文将为您推荐2026年最值得关注的十个深度学习资源,帮助您在这一领域中快速成长。 1. Coursera Deep Learn...

2026年 Top 10 AI 代理:核心卖点解析Technology

2026年 Top 10 AI 代理:核心卖点解析

2026年 Top 10 AI 代理:核心卖点解析 引言 随着人工智能的快速发展,AI 代理(AI Agents)已成为技术领域的热点话题。越来越多的开发者和企业开始探索如何利用这些智能代理提升工作效率和业务盈利。但在众多的 AI 代理解决...

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力Technology

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力 ในยุคที่เทคโนโลยีก้าวหน้าอย่างรวดเร็ว ปัญญาประดิษฐ์ (AI) ได้กลายเป็นหัวข้อที่ได้รับความ...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 ในสาขาคลาวด์คอมพิวติ้งที่พัฒนาอย่างรวดเร็ว Amazon Web Services (AWS) ยังคงเป็นผู้นำ โดยมีบริการแ...