Стената на разходите на GPT
През последната седмица в X се появи нов фокус на дискусиите за GPT: не способността, а цената.
ARC-AGI: Границите на интелигентността
Текущото представяне на най-съвременните модели на ARC-AGI-2:
| Модел | ARC-AGI-2 резултат |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Човек | 100% |
Разликата между 54% и 73% не е проблем на интелигентността, а на „усъвършенстване“ – да накарате модела многократно да проверява собствените си отговори. Това изисква повече изчисления, което означава по-високи разходи.
Реалната цена на Agent
Годишната цена на 24/7 Agent от корпоративен клас (20 милиона входящи + 20 милиона изходящи токена на ден):
| Модел | Годишна цена |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro е 12 пъти по-скъп от GPT-5.2 Standard. Това не е проблем на ценовата стратегия, а проблем на структурата на разходите.
"Преди да разположите 100 AI агента, пресметнете." — @waseem_s
Новият тест на Тюринг
Един прост въпрос се превръща в нов тест за интелигентност:
"Автомивката е на 40 метра от дома ми. Искам да измия колата си. Трябва ли да отида пеша или с колата?"
Преминали модели: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Провалили се модели: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Защо този тест има смисъл? Защото тества „разсъждения със здрав разум“, а не „извличане на знания“. 40 метра са разстояние за ходене пеша. Колата е мръсна и трябва да се измие. Но не бихте карали мръсна кола 40 метра, за да я измиете – освен ако не разбирате от здрав разум.
Историята не се повтаря, но се римува
"Експертните системи се раждат през 70-те години, процъфтяват през 80-те и са широко смятани за бъдещето на AI." — @ChombaBupe
GPT моделите се раждат през 2018 г., процъфтяват през 2020-те и са широко смятани за бъдещето на AI.
Провалът на експертните системи не е защото не са достатъчно интелигентни, а защото разходите за поддръжка са твърде високи и мащабируемостта е твърде лоша. Когато базата знания трябва да се поддържа ръчно, мащабът е враг.
GPT е изправен пред огледален проблем: моделът е интелигентен, но разходите за разсъждения са твърде високи. Когато всяка заявка изисква много изчисления, мащабът също е враг.
Следваща стъпка
Очаква се тази седмица да бъдат пуснати няколко нови модела: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Конкуренцията се измества от „кой е по-умен“ към „кой е по-евтин“. Това е добра новина за потребителите. За OpenAI? Не е задължително.





