Стена стоимости GPT
На прошлой неделе в обсуждениях о GPT в X появился новый фокус: не возможности, а стоимость.
ARC-AGI: Границы интеллекта
Производительность самых передовых моделей на ARC-AGI-2:
| Модель | ARC-AGI-2 Оценка |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Человек | 100% |
Разница между 54% и 73% — это не вопрос интеллекта, а «уточнение» — заставить модель многократно проверять свои ответы. Это требует больше вычислений, что означает более высокую стоимость.
Реальная стоимость Agent
Годовая стоимость круглосуточного корпоративного Agent (20 миллионов входных + 20 миллионов выходных токенов в день):
| Модель | Годовая стоимость |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro в 12 раз дороже, чем GPT-5.2 Standard. Это не вопрос ценовой политики, а вопрос структуры затрат.
"Before you deploy 100 AI agents, run the math." — @waseem_s
Новый тест Тьюринга
Простой вопрос становится новым тестом интеллекта:
"Автомойка находится в 40 метрах от моего дома. Я хочу помыть машину. Мне следует идти пешком или ехать на машине?"
Пройденные модели: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Не пройденные модели: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Почему этот тест имеет смысл? Потому что он проверяет «рассуждение здравого смысла», а не «поиск знаний». 40 метров — это расстояние, которое можно пройти пешком. Машина грязная и ее нужно помыть. Но вы не поедете на грязной машине 40 метров, чтобы ее помыть — если только у вас нет здравого смысла.
История не повторяется, но рифмуется
"Экспертные системы родились в 1970-х годах, процветали в 1980-х годах и широко рассматривались как будущее ИИ." — @ChombaBupe
GPT-модели родились в 2018 году, процветают в 2020-х годах и широко рассматриваются как будущее ИИ.
Провал экспертных систем произошел не из-за недостатка интеллекта, а из-за слишком высоких затрат на обслуживание и плохой масштабируемости. Когда база знаний требует ручного обслуживания, масштаб становится врагом.
GPT сталкивается с зеркальной проблемой: модель умна, но стоимость рассуждений слишком высока. Когда каждый запрос требует большого количества вычислений, масштаб также является врагом.
Что дальше
На этой неделе ожидается выпуск нескольких новых моделей: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Конкуренция смещается от «кто умнее» к «кто дешевле». Это хорошая новость для пользователей. Для OpenAI? Не обязательно.





