Google-მა ჩუმად განაახლა Deep Think, ARC-AGI-2-მა პირდაპირ 84.6%-მდე აიწია

ახლახან, Google DeepMind-მა განაახლა Gemini 3-ის სპეციალური მსჯელობის რეჟიმი Deep Think, ქულებმა პირდაპირ გაანადგურა ლიდერბორდი.

Deep Think

უნდა იცოდეთ, რომ ARC-AGI-2 ამჟამად აღიარებულია, როგორც AI-ის მსჯელობის უნარის ტესტირების წინა ხაზის სტანდარტი, აქამდე ვერცერთმა მოდელმა ვერ მიიღო მასზე განსაკუთრებით კარგი ქულები.

ბაზისური შედარება

განახლებულმა Deep Think-მა 84.6% აიღო, შედარებისთვის: Claude Opus 4.6 არის 68.8%, GPT-5.2 არის 52.9%, თვით Gemini 3 Pro Preview-იც კი მხოლოდ 31.1%-ია.

უზარმაზარი გაუმჯობესებაა.

არა მხოლოდ მსჯელობა

Deep Think-ის ამბიციები აშკარად სცილდება მსჯელობას.

არა მხოლოდ მსჯელობა

Humanity's Last Exam-ის სტანდარტზე, რომელსაც „კაცობრიობის ბოლო გამოცდას“ უწოდებენ, Deep Think-მა 48.4% აიღო, ეს ტესტი მოიცავს მათემატიკის, მეცნიერებისა და საინჟინრო სფეროების ყველაზე რთულ საკითხებს. Claude Opus 4.6-მა 40.0% მიიღო, GPT-5.2-მა კი 34.5%.

პროგრამირების მხრივაც ძალიან მაგარია:

Codeforces-ზე Deep Think-მა მიაღწია Elo 3455-ს, ხოლო Gemini 3 Pro Preview-მ 2512-ს, Claude Opus 4.6-მა კი 2352-ს.

Codeforces

გარდა ამისა, მრავალმოდალური გაგებისა და მსჯელობის MMMU-Pro სტანდარტზე, Deep Think ასევე ლიდერობს 81.5%-ით, თუმცა აქ სხვაობა არც ისე დიდია: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

ქულების გარდა, Deep Think-მა ასევე მიიღო ოქროს მედლის დონის შედეგი 2025 წლის ფიზიკისა და ქიმიის ოლიმპიადების წერილობით ნაწილში.

მეცნიერული პრობლემების გადასაჭრელად

Google DeepMind-მა ამჯერად განსაკუთრებით ხაზი გაუსვა, რომ განახლებული Deep Think უბრალოდ პრობლემების გადამჭრელი მანქანა აღარ არის, არამედ რეალური სამყაროს მეცნიერული და საინჟინრო პრობლემების გადაჭრა სურს.

მეცნიერული პრობლემები

მათ წარმოადგინეს Duke University Wang Lab-ის მაგალითი: მკვლევარები იყენებენ Deep Think-ს ახალი ტიპის ნახევარგამტარი მასალების შესაქმნელად, რთული კრისტალების ზრდის პროცესის ოპტიმიზაციისთვის, ეს კრისტალები მაღალი ტემპერატურის ნახევარგამტარების კანდიდატი მასალებია.

Duke მაგალითი

მექანიკური ინჟინერია

ასევე, მექანიკური ინჟინერიის სფეროს მკვლევარები იყენებენ მას ფიზიკური პროტოტიპების გასამეორებლად, რაც აპარატურის გამეორებას პროგრამული უზრუნველყოფის გამეორების სიჩქარესთან აახლოებს, რაც დამხმარე მოწყობილობების და სხვა სფეროებში გაუმჯობესების უფრო სწრაფ ციკლს ნიშნავს.

როგორ გამოვიყენოთ

განახლებული Deep Think რეჟიმი ახლა უკვე იწყებს Google AI Ultra-ს აბონენტებისთვის Gemini App-ში გაგზავნას.

როგორ გამოვიყენოთ

მკვლევარებისა და დეველოპერებისთვის Google-მა გახსნა Vertex AI-ზე ადრეული წვდომის პროგრამა, რომლის გამოყენებაც API-ის საშუალებით არის შესაძლებელი.

Vertex AI-ზე ადრეული წვდომა: https://goo.gle/4rMHUlq

Google-მა ჩუმად განაახლა Deep Think, ARC-AGI-2-მა პირდაპირ 84.6%-მდე აიწია

Google-მა ჩუმად განაახლა Deep Think, ARC-AGI-2-მა პირდაპირ 84.6%-მდე აიწია

არა მხოლოდ მსჯელობა

მეცნიერული პრობლემების გადასაჭრელად

როგორ გამოვიყენოთ

You Might Also Like

Claude Code Buddy შეცვლის სახელმძღვანელო: როგორ უნდა მიიღოთ ბრწყინვალე ლეგენდარული შინაური ცხოველი

Obsidian გამოუშვა Defuddle, Obsidian Web Clipper ახალ დონეზე გადაიყვანა

2026, აღარ უნდა აიძულო თავი "თვითკონტროლი"! გააკეთე ეს 8 პატარა საქმე, ჯანმრთელობა ბუნებრივად მოვა

იმ დედების შესახებ, რომლებიც ცდილობენ დაიკლონ წონა, მაგრამ ვერ ახერხებენ

AI Browser 24 საათიანი სტაბილური მუშაობის სახელმძღვანელო