Google แอบอัปเกรด Deep Think, ARC-AGI-2 พุ่งไปถึง 84.6% โดยตรง
Google แอบอัปเกรด Deep Think, ARC-AGI-2 พุ่งไปถึง 84.6% โดยตรง
เมื่อเร็วๆ นี้ Google DeepMind ได้อัปเกรดโหมดการให้เหตุผลเฉพาะ Deep Think ของ Gemini 3 คะแนนพุ่งทะยานขึ้นอันดับหนึ่งโดยตรง

ต้องรู้ว่า ARC-AGI-2 เป็นเกณฑ์มาตรฐานแนวหน้าสำหรับการทดสอบความสามารถในการให้เหตุผลของ AI ที่ได้รับการยอมรับในปัจจุบัน ก่อนหน้านี้ไม่มีโมเดลใดที่สามารถทำคะแนนได้ดีเป็นพิเศษในเกณฑ์นี้

แต่ Deep Think ที่ได้รับการอัปเกรดแล้ว ทำคะแนนได้ 84.6% ลองเปรียบเทียบดู: Claude Opus 4.6 ได้ 68.8%, GPT-5.2 ได้ 52.9% แม้แต่ Gemini 3 Pro Preview ของตัวเองก็ยังได้แค่ 31.1%
พัฒนาขึ้นอย่างมาก
ไม่ใช่แค่การให้เหตุผล
ความทะเยอทะยานของ Deep Think เห็นได้ชัดว่าไม่ได้จำกัดอยู่แค่การให้เหตุผล

ในเกณฑ์มาตรฐาน Humanity's Last Exam ที่เรียกกันว่า "การสอบครั้งสุดท้ายของมนุษยชาติ" Deep Think ได้คะแนน 48.4% การทดสอบนี้ครอบคลุมปัญหาที่ยากที่สุดในสาขาคณิตศาสตร์ วิทยาศาสตร์ และวิศวกรรม Claude Opus 4.6 ได้ 40.0%, GPT-5.2 ได้ 34.5%
ด้านการเขียนโปรแกรมก็ยอดเยี่ยมเช่นกัน:
บน Codeforces Deep Think ทำคะแนนได้ถึง Elo 3455 ในขณะที่ Gemini 3 Pro Preview ได้ 2512, Claude Opus 4.6 ได้ 2352

นอกจากนี้ ในเกณฑ์มาตรฐาน MMMU-Pro สำหรับความเข้าใจและการให้เหตุผลแบบหลายรูปแบบ Deep Think ยังนำหน้าด้วยคะแนน 81.5% แต่ความแตกต่างระหว่างแต่ละบริษัทไม่มากนัก: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%

นอกจากคะแนนแล้ว Deep Think ยังได้รับผลการเรียนระดับเหรียญทองในการสอบข้อเขียนของการแข่งขันโอลิมปิกวิชาการฟิสิกส์และเคมีปี 2025
ต้องการแก้ไขปัญหาทางวิทยาศาสตร์
Google DeepMind เน้นย้ำเป็นพิเศษในครั้งนี้ว่า Deep Think ที่ได้รับการอัปเกรดแล้ว ไม่ได้เป็นเพียงเครื่องจักรแก้ปัญหาอีกต่อไป แต่ต้องการแก้ไขปัญหาทางวิทยาศาสตร์และวิศวกรรมในโลกแห่งความเป็นจริง

พวกเขาได้แสดงกรณีศึกษาของ Wang Lab แห่งมหาวิทยาลัย Duke: นักวิจัยใช้ Deep Think เพื่อออกแบบวัสดุเซมิคอนดักเตอร์ชนิดใหม่ ปรับกระบวนการเติบโตของผลึกที่ซับซ้อนให้เหมาะสม ซึ่งผลึกเหล่านี้เป็นวัสดุตัวเลือกสำหรับเซมิคอนดักเตอร์ที่มีอุณหภูมิสูง


นอกจากนี้ นักวิจัยในสาขาวิศวกรรมเครื่องกลยังใช้มันเพื่อปรับปรุงต้นแบบทางกายภาพ ทำให้การปรับปรุงฮาร์ดแวร์มีความเร็วเท่ากับการปรับปรุงซอฟต์แวร์ ซึ่งในสาขาอุปกรณ์ช่วยเหลือและอื่นๆ หมายถึงรอบการปรับปรุงที่เร็วขึ้น
วิธีการใช้งาน
โหมด Deep Think ที่ได้รับการอัปเกรดแล้วได้เริ่มเปิดตัวใน Gemini App ให้กับผู้ใช้ที่สมัครสมาชิก Google AI Ultra แล้ว

สำหรับนักวิจัยและนักพัฒนา Google ได้เปิดตัว Vertex AI Early Access Program ซึ่งสามารถใช้งานผ่าน API ได้
Vertex AI Early Access: https://goo.gle/4rMHUlq





