Google-მა ჩუმად განაახლა Deep Think, ARC-AGI-2-მა პირდაპირ 84.6%-მდე აიწია

2/14/2026
2 min read

Google-მა ჩუმად განაახლა Deep Think, ARC-AGI-2-მა პირდაპირ 84.6%-მდე აიწია

ახლახან, Google DeepMind-მა განაახლა Gemini 3-ის სპეციალური მსჯელობის რეჟიმი Deep Think, ქულებმა პირდაპირ გაანადგურა ლიდერბორდი.

Deep Think

უნდა იცოდეთ, რომ ARC-AGI-2 ამჟამად აღიარებულია, როგორც AI-ის მსჯელობის უნარის ტესტირების წინა ხაზის სტანდარტი, აქამდე ვერცერთმა მოდელმა ვერ მიიღო მასზე განსაკუთრებით კარგი ქულები.

ბაზისური შედარება

განახლებულმა Deep Think-მა 84.6% აიღო, შედარებისთვის: Claude Opus 4.6 არის 68.8%, GPT-5.2 არის 52.9%, თვით Gemini 3 Pro Preview-იც კი მხოლოდ 31.1%-ია.

უზარმაზარი გაუმჯობესებაა.

არა მხოლოდ მსჯელობა

Deep Think-ის ამბიციები აშკარად სცილდება მსჯელობას.

არა მხოლოდ მსჯელობა

Humanity's Last Exam-ის სტანდარტზე, რომელსაც „კაცობრიობის ბოლო გამოცდას“ უწოდებენ, Deep Think-მა 48.4% აიღო, ეს ტესტი მოიცავს მათემატიკის, მეცნიერებისა და საინჟინრო სფეროების ყველაზე რთულ საკითხებს. Claude Opus 4.6-მა 40.0% მიიღო, GPT-5.2-მა კი 34.5%.

პროგრამირების მხრივაც ძალიან მაგარია:

Codeforces-ზე Deep Think-მა მიაღწია Elo 3455-ს, ხოლო Gemini 3 Pro Preview-მ 2512-ს, Claude Opus 4.6-მა კი 2352-ს.

Codeforces

გარდა ამისა, მრავალმოდალური გაგებისა და მსჯელობის MMMU-Pro სტანდარტზე, Deep Think ასევე ლიდერობს 81.5%-ით, თუმცა აქ სხვაობა არც ისე დიდია: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

ქულების გარდა, Deep Think-მა ასევე მიიღო ოქროს მედლის დონის შედეგი 2025 წლის ფიზიკისა და ქიმიის ოლიმპიადების წერილობით ნაწილში.

მეცნიერული პრობლემების გადასაჭრელად

Google DeepMind-მა ამჯერად განსაკუთრებით ხაზი გაუსვა, რომ განახლებული Deep Think უბრალოდ პრობლემების გადამჭრელი მანქანა აღარ არის, არამედ რეალური სამყაროს მეცნიერული და საინჟინრო პრობლემების გადაჭრა სურს.

მეცნიერული პრობლემები

მათ წარმოადგინეს Duke University Wang Lab-ის მაგალითი: მკვლევარები იყენებენ Deep Think-ს ახალი ტიპის ნახევარგამტარი მასალების შესაქმნელად, რთული კრისტალების ზრდის პროცესის ოპტიმიზაციისთვის, ეს კრისტალები მაღალი ტემპერატურის ნახევარგამტარების კანდიდატი მასალებია.

Duke მაგალითი

მექანიკური ინჟინერია

ასევე, მექანიკური ინჟინერიის სფეროს მკვლევარები იყენებენ მას ფიზიკური პროტოტიპების გასამეორებლად, რაც აპარატურის გამეორებას პროგრამული უზრუნველყოფის გამეორების სიჩქარესთან აახლოებს, რაც დამხმარე მოწყობილობების და სხვა სფეროებში გაუმჯობესების უფრო სწრაფ ციკლს ნიშნავს.

როგორ გამოვიყენოთ

განახლებული Deep Think რეჟიმი ახლა უკვე იწყებს Google AI Ultra-ს აბონენტებისთვის Gemini App-ში გაგზავნას.

როგორ გამოვიყენოთ

მკვლევარებისა და დეველოპერებისთვის Google-მა გახსნა Vertex AI-ზე ადრეული წვდომის პროგრამა, რომლის გამოყენებაც API-ის საშუალებით არის შესაძლებელი.

Vertex AI-ზე ადრეული წვდომა: https://goo.gle/4rMHUlq

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy შეცვლის სახელმძღვანელო: როგორ უნდა მიიღოთ ბრწყინვალე ლეგენდარული შინაური ცხოველი

Claude Code Buddy შეცვლის სახელმძღვანელო: როგორ უნდა მიიღოთ ბრწყინვალე ლეგენდარული შინაური ცხოველი 2026 წლის 1 აპრილს, A...

Obsidian გამოუშვა Defuddle, Obsidian Web Clipper ახალ დონეზე გადაიყვანაTechnology

Obsidian გამოუშვა Defuddle, Obsidian Web Clipper ახალ დონეზე გადაიყვანა

Obsidian გამოუშვა Defuddle, Obsidian Web Clipper ახალ დონეზე გადაიყვანა მე ყოველთვის ძალიან მომწონდა Obsidian-ის ძირითა...

OpenAI უცბად გამოაცხადა "სამი ერთში": ბრაუზერი + პროგრამირება + ChatGPT გაწვდილი, შიდა დონეზე აღიარეს, რომ გასული წელი შეცდომით გაიარესTechnology

OpenAI უცბად გამოაცხადა "სამი ერთში": ბრაუზერი + პროგრამირება + ChatGPT გაწვდილი, შიდა დონეზე აღიარეს, რომ გასული წელი შეცდომით გაიარეს

OpenAI უცბად გამოაცხადა "სამი ერთში": ბრაუზერი + პროგრამირება + ChatGPT გაწვდილი, შიდა დონეზე აღიარეს, რომ გასული წელი შ...

2026, აღარ უნდა აიძულო თავი "თვითკონტროლი"! გააკეთე ეს 8 პატარა საქმე, ჯანმრთელობა ბუნებრივად მოვაHealth

2026, აღარ უნდა აიძულო თავი "თვითკონტროლი"! გააკეთე ეს 8 პატარა საქმე, ჯანმრთელობა ბუნებრივად მოვა

2026, აღარ უნდა აიძულო თავი "თვითკონტროლი"! გააკეთე ეს 8 პატარა საქმე, ჯანმრთელობა ბუნებრივად მოვა ახალი წელი დაიწყო, გ...

იმ დედების შესახებ, რომლებიც ცდილობენ დაიკლონ წონა, მაგრამ ვერ ახერხებენHealth

იმ დედების შესახებ, რომლებიც ცდილობენ დაიკლონ წონა, მაგრამ ვერ ახერხებენ

იმ დედების შესახებ, რომლებიც ცდილობენ დაიკლონ წონა, მაგრამ ვერ ახერხებენ მარტი უკვე ნახევარზე მეტია გასული, როგორ მიდის...

📝
Technology

AI Browser 24 საათიანი სტაბილური მუშაობის სახელმძღვანელო

AI Browser 24 საათიანი სტაბილური მუშაობის სახელმძღვანელო ამ სახელმძღვანელოში აღწერილია, როგორ უნდა შექმნათ სტაბილური, ხა...