Стіна вартості GPT
Протягом останнього тижня в X обговорення про GPT зосередилися на новому аспекті: не на можливостях, а на вартості.
ARC-AGI: Межі інтелекту
Показники найсучасніших моделей на ARC-AGI-2:
| Модель | ARC-AGI-2 бал |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Людина | 100% |
Різниця між 54% і 73% – це не питання інтелекту, а «уточнення» – змусити модель неодноразово перевіряти свої відповіді. Це вимагає більше обчислень, що означає вищу вартість.
Реальна вартість Agent
Річна вартість корпоративного Agent 24/7 (20 мільйонів вхідних + 20 мільйонів вихідних токенів на день):
| Модель | Річна вартість |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro в 12 разів дорожчий за GPT-5.2 Standard. Це не питання цінової політики, а питання структури витрат.
"Перш ніж розгортати 100 AI agent, порахуйте." — @waseem_s
Новий тест Тюрінга
Просте питання стає новим тестом інтелекту:
"Автомийка знаходиться в 40 метрах від мого будинку. Я хочу помити машину. Мені слід піти пішки чи поїхати на машині?"
Пройшли тест: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Не пройшли тест: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Чому цей тест має значення? Тому що він перевіряє «здоровий глузд», а не «пошук знань». 40 метрів – це відстань, яку можна пройти пішки. Машина брудна і потребує миття. Але ви не поїдете на брудній машині 40 метрів, щоб її помити – хіба що у вас немає здорового глузду.
Історія не повторюється, але римується
"Експертні системи народилися в 1970-х роках, процвітали в 1980-х роках і широко вважалися майбутнім AI." — @ChombaBupe
Моделі GPT народилися в 2018 році, процвітали в 2020-х роках і широко вважаються майбутнім AI.
Провал експертних систем стався не через недостатню інтелектуальність, а через надто високу вартість обслуговування та погану масштабованість. Коли базу знань потрібно підтримувати вручну, масштаб стає ворогом.
GPT стикається з дзеркальною проблемою: модель розумна, але вартість міркувань занадто висока. Коли кожен запит вимагає великої кількості обчислень, масштаб також є ворогом.
Наступні кроки
Очікується, що цього тижня буде випущено кілька нових моделей: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Конкуренція переходить від «хто розумніший» до «хто дешевший». Це хороша новина для користувачів. Для OpenAI? Не обов'язково.





