GPT-ის ხარჯების კედელი
ბოლო ერთი კვირის განმავლობაში, X-ზე GPT-ის შესახებ დისკუსიებში ახალი ფოკუსი გამოჩნდა: არა შესაძლებლობები, არამედ ხარჯები.
ARC-AGI: ინტელექტის საზღვრები
ამჟამად ყველაზე მოწინავე მოდელების შედეგები ARC-AGI-2-ზე:
| მოდელი | ARC-AGI-2 ქულა |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| ადამიანი | 100% |
54%-დან 73%-მდე სხვაობა არ არის ინტელექტის პრობლემა, ეს არის „დახვეწა“ — მოდელის მიერ საკუთარი პასუხების განმეორებითი შემოწმება. ეს მეტ გამოთვლას მოითხოვს, რაც უფრო მაღალ ხარჯებს ნიშნავს.
Agent-ის რეალური ღირებულება
24/7 საწარმოს დონის Agent-ის (დღეში 20 მილიონი შეყვანის + 20 მილიონი გამოტანის ტოკენი) წლიური ღირებულება:
| მოდელი | წლიური ღირებულება |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro 12-ჯერ უფრო ძვირია, ვიდრე GPT-5.2 Standard. ეს არ არის ფასების სტრატეგიის საკითხი, ეს არის ხარჯების სტრუქტურის საკითხი.
"სანამ 100 AI agent-ს განათავსებთ, დათვალეთ." — @waseem_s
ახალი ტიურინგის ტესტი
მარტივი კითხვა ახალი ინტელექტის ტესტი ხდება:
"მანქანის სამრეცხაო ჩემი სახლიდან 40 მეტრშია. მანქანა უნდა გავრეცხო. ფეხით უნდა წავიდე თუ მანქანით?"
გავლილი მოდელები: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro ჩავარდნილი მოდელები: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
რატომ აქვს ამ ტესტს აზრი? იმიტომ, რომ ის ამოწმებს „საერთო აზროვნებას“ და არა „ცოდნის მოძიებას“. 40 მეტრი ფეხით სავალი მანძილია. მანქანა ჭუჭყიანია და გარეცხვა სჭირდება. მაგრამ ჭუჭყიან მანქანას 40 მეტრზე არ წაიყვანთ გასარეცხად — თუ საერთო აზრი არ გაქვთ.
ისტორია არ მეორდება, მაგრამ რითმობს
"ექსპერტთა სისტემები 1970-იან წლებში დაიბადა, 1980-იან წლებში აყვავდა და ფართოდ განიხილებოდა, როგორც AI-ს მომავალი." — @ChombaBupe
GPT მოდელები 2018 წელს დაიბადა, 2020-იან წლებში აყვავდა და ფართოდ განიხილება, როგორც AI-ს მომავალი.
ექსპერტთა სისტემების წარუმატებლობა არ იყო იმიტომ, რომ ისინი საკმარისად ჭკვიანები არ იყვნენ, არამედ იმიტომ, რომ მათი შენახვა ძალიან ძვირი ღირდა და ცუდად ფართოვდებოდა. როდესაც ცოდნის ბაზას ხელით შენარჩუნება სჭირდება, მასშტაბი მტერია.
GPT-ს სარკისებური პრობლემა აქვს: მოდელი ჭკვიანია, მაგრამ მსჯელობა ძალიან ძვირია. როდესაც თითოეული მოთხოვნა დიდ გამოთვლას მოითხოვს, მასშტაბი ასევე მტერია.
შემდეგი ნაბიჯი
ამ კვირაში მოსალოდნელია რამდენიმე ახალი მოდელის გამოშვება: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
კონკურენცია „ვინ უფრო ჭკვიანია“-დან „ვინ უფრო იაფია“-ზე გადადის. ეს კარგი ამბავია მომხმარებლებისთვის. OpenAI-სთვის? სულაც არა.





