Google แอบอัปเกรด Deep Think, ARC-AGI-2 พุ่งไปถึง 84.6% โดยตรง

2/14/2026
1 min read

Google แอบอัปเกรด Deep Think, ARC-AGI-2 พุ่งไปถึง 84.6% โดยตรง

เมื่อเร็วๆ นี้ Google DeepMind ได้อัปเกรดโหมดการให้เหตุผลเฉพาะ Deep Think ของ Gemini 3 คะแนนพุ่งทะยานขึ้นอันดับหนึ่งโดยตรง

Deep Think

ต้องรู้ว่า ARC-AGI-2 เป็นเกณฑ์มาตรฐานแนวหน้าสำหรับการทดสอบความสามารถในการให้เหตุผลของ AI ที่ได้รับการยอมรับในปัจจุบัน ก่อนหน้านี้ไม่มีโมเดลใดที่สามารถทำคะแนนได้ดีเป็นพิเศษในเกณฑ์นี้

基准对比

แต่ Deep Think ที่ได้รับการอัปเกรดแล้ว ทำคะแนนได้ 84.6% ลองเปรียบเทียบดู: Claude Opus 4.6 ได้ 68.8%, GPT-5.2 ได้ 52.9% แม้แต่ Gemini 3 Pro Preview ของตัวเองก็ยังได้แค่ 31.1%

พัฒนาขึ้นอย่างมาก

ไม่ใช่แค่การให้เหตุผล

ความทะเยอทะยานของ Deep Think เห็นได้ชัดว่าไม่ได้จำกัดอยู่แค่การให้เหตุผล

不止推理

ในเกณฑ์มาตรฐาน Humanity's Last Exam ที่เรียกกันว่า "การสอบครั้งสุดท้ายของมนุษยชาติ" Deep Think ได้คะแนน 48.4% การทดสอบนี้ครอบคลุมปัญหาที่ยากที่สุดในสาขาคณิตศาสตร์ วิทยาศาสตร์ และวิศวกรรม Claude Opus 4.6 ได้ 40.0%, GPT-5.2 ได้ 34.5%

ด้านการเขียนโปรแกรมก็ยอดเยี่ยมเช่นกัน:

บน Codeforces Deep Think ทำคะแนนได้ถึง Elo 3455 ในขณะที่ Gemini 3 Pro Preview ได้ 2512, Claude Opus 4.6 ได้ 2352

Codeforces

นอกจากนี้ ในเกณฑ์มาตรฐาน MMMU-Pro สำหรับความเข้าใจและการให้เหตุผลแบบหลายรูปแบบ Deep Think ยังนำหน้าด้วยคะแนน 81.5% แต่ความแตกต่างระหว่างแต่ละบริษัทไม่มากนัก: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%

MMMU-Pro

นอกจากคะแนนแล้ว Deep Think ยังได้รับผลการเรียนระดับเหรียญทองในการสอบข้อเขียนของการแข่งขันโอลิมปิกวิชาการฟิสิกส์และเคมีปี 2025

ต้องการแก้ไขปัญหาทางวิทยาศาสตร์

Google DeepMind เน้นย้ำเป็นพิเศษในครั้งนี้ว่า Deep Think ที่ได้รับการอัปเกรดแล้ว ไม่ได้เป็นเพียงเครื่องจักรแก้ปัญหาอีกต่อไป แต่ต้องการแก้ไขปัญหาทางวิทยาศาสตร์และวิศวกรรมในโลกแห่งความเป็นจริง

科学问题

พวกเขาได้แสดงกรณีศึกษาของ Wang Lab แห่งมหาวิทยาลัย Duke: นักวิจัยใช้ Deep Think เพื่อออกแบบวัสดุเซมิคอนดักเตอร์ชนิดใหม่ ปรับกระบวนการเติบโตของผลึกที่ซับซ้อนให้เหมาะสม ซึ่งผลึกเหล่านี้เป็นวัสดุตัวเลือกสำหรับเซมิคอนดักเตอร์ที่มีอุณหภูมิสูง

Duke案例

机械工程

นอกจากนี้ นักวิจัยในสาขาวิศวกรรมเครื่องกลยังใช้มันเพื่อปรับปรุงต้นแบบทางกายภาพ ทำให้การปรับปรุงฮาร์ดแวร์มีความเร็วเท่ากับการปรับปรุงซอฟต์แวร์ ซึ่งในสาขาอุปกรณ์ช่วยเหลือและอื่นๆ หมายถึงรอบการปรับปรุงที่เร็วขึ้น

วิธีการใช้งาน

โหมด Deep Think ที่ได้รับการอัปเกรดแล้วได้เริ่มเปิดตัวใน Gemini App ให้กับผู้ใช้ที่สมัครสมาชิก Google AI Ultra แล้ว

如何使用

สำหรับนักวิจัยและนักพัฒนา Google ได้เปิดตัว Vertex AI Early Access Program ซึ่งสามารถใช้งานผ่าน API ได้

Vertex AI Early Access: https://goo.gle/4rMHUlq

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy แก้ไขคู่มือ: วิธีการรับสัตว์เลี้ยงระดับตำนานที่เปล่งประกาย

Claude Code Buddy แก้ไขคู่มือ: วิธีการรับสัตว์เลี้ยงระดับตำนานที่เปล่งประกาย วันที่ 1 เมษายน 2026, Anthropic ได้เปิดตัวฟ...

Obsidian เปิดตัว Defuddle ยกระดับ Obsidian Web Clipper สู่ระดับใหม่Technology

Obsidian เปิดตัว Defuddle ยกระดับ Obsidian Web Clipper สู่ระดับใหม่

Obsidian เปิดตัว Defuddle ยกระดับ Obsidian Web Clipper สู่ระดับใหม่ ฉันชอบแนวคิดหลักของ Obsidian มาตลอด: เน้นที่การจัดเ...

OpenAI突然宣布"三合一":浏览器+编程+ChatGPT合并,内部承认过去一年走错了Technology

OpenAI突然宣布"三合一":浏览器+编程+ChatGPT合并,内部承认过去一年走错了

OpenAI突然宣布"三合一":浏览器+编程+ChatGPT合并,内部承认过去一年走错了 ในคืนวันที่ 19 มีนาคม 2026 มีการรั่วไหลของบันทึกภายในจากสำนักงานใหญ่ของ Op...

2026,不再逼自己"自律"!做好这8件小事,健康自然来Health

2026,不再逼自己"自律"!做好这8件小事,健康自然来

2026,不再逼自己"自律"!做好这8件小事,健康自然来 ปีใหม่เริ่มต้นขึ้นแล้ว ปีที่แล้วคุณทำตามเป้าหมายที่ตั้งไว้หรือยัง? คุณเคยรู้สึกสับสนระหว่า...

แม่ๆ ที่พยายามลดน้ำหนักแต่ไม่สำเร็จ แน่นอนว่าต้องเจอปัญหานี้Health

แม่ๆ ที่พยายามลดน้ำหนักแต่ไม่สำเร็จ แน่นอนว่าต้องเจอปัญหานี้

แม่ๆ ที่พยายามลดน้ำหนักแต่ไม่สำเร็จ แน่นอนว่าต้องเจอปัญหานี้ เดือนมีนาคมผ่านไปครึ่งหนึ่งแล้ว แผนการลดน้ำหนักของคุณเป็นอ...

📝
Technology

AI Browser 24 ชั่วโมงการทำงานที่เสถียร

AI Browser 24 ชั่วโมงการทำงานที่เสถียร บทแนะนำนี้จะอธิบายวิธีการตั้งค่า สภาพแวดล้อม AI เบราว์เซอร์ที่เสถียรและทำงานได้ยา...