Ѕидот на трошоците на GPT
Во текот на изминатата недела, дискусиите за GPT на X добија нов фокус: не можностите, туку трошоците.
ARC-AGI: Границите на интелигенцијата
Моментално најнапредните модели на ARC-AGI-2 се претставуваат вака:
| Модел | ARC-AGI-2 резултат |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Човек | 100% |
Разликата помеѓу 54% и 73% не е прашање на интелигенција, туку на „рафинирање“ - моделот постојано да ги проверува своите одговори. Ова бара повеќе пресметки, што значи повисоки трошоци.
Реалните трошоци на Agent
Годишни трошоци за 24/7 Agent од корпоративна класа (20 милиони влезни + 20 милиони излезни токени дневно):
| Модел | Годишен трошок |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro е 12 пати поскап од GPT-5.2 Standard. Ова не е прашање на стратегија за цени, туку прашање на структура на трошоци.
"Пред да распоредите 100 AI агенти, пресметајте." — @waseem_s
Новиот Тјурингов тест
Едноставно прашање станува нов тест за интелигенција:
"Автопералната е на 40 метри од мојата куќа. Сакам да го измијам автомобилот. Дали треба да одам пеш или да се возам?"
Поминати модели: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Паднати модели: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Зошто овој тест има смисла? Затоа што тестира „разумско расудување“, а не „пребарување на знаење“. 40 метри се пешачка дистанца. Автомобилот е валкан и треба да се измие. Но, нема да возите валкан автомобил 40 метри за да го измиете - освен ако немате здрав разум.
Историјата не се повторува, но се римува
"Експертските системи се родени во 1970-тите, процветаа во 1980-тите и беа широко сметани за иднина на вештачката интелигенција." — @ChombaBupe
GPT моделите се родени во 2018 година, процветаа во 2020-тите и се широко сметани за иднина на вештачката интелигенција.
Неуспехот на експертските системи не беше затоа што не беа доволно паметни, туку затоа што трошоците за одржување беа превисоки и скалабилноста беше премногу слаба. Кога базата на знаење треба рачно да се одржува, обемот е непријател.
GPT се соочува со огледален проблем: моделот е паметен, но трошоците за расудување се превисоки. Кога секое барање бара голема количина на пресметки, обемот е исто така непријател.
Следни чекори
Оваа недела се очекуваат неколку нови модели: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Конкуренцијата се префрла од „кој е попаметен“ во „кој е поевтин“. Ова е добра вест за корисниците. За OpenAI? Не мора да биде.





