GPT-ның құн қабырғасы
Өткен аптада X-те GPT туралы талқылаудың жаңа бағыты пайда болды: қабілет емес, құн.
ARC-AGI: Зияткерліктің шекарасы
Қазіргі уақытта ең озық модельдердің ARC-AGI-2-дегі көрсеткіштері:
| Модель | ARC-AGI-2 ұпайы |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Адам | 100% |
54%-дан 73%-ке дейінгі айырмашылық зияткерлік мәселесі емес, «жетілдіру» — модельдің өз жауаптарын қайта-қайта тексеруі. Бұл көбірек есептеуді қажет етеді, демек, жоғары құнды білдіреді.
Агенттің нақты құны
24/7 кәсіпорындық агенттің (күніне 20 миллион кіріс + 20 миллион шығыс токендері) жылдық құны:
| Модель | Жылдық құн |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro GPT-5.2 Standard-тан 12 есе қымбат. Бұл баға белгілеу стратегиясының мәселесі емес, құн құрылымының мәселесі.
"100 AI агентін орналастырмас бұрын, есептеу жүргізіңіз." — @waseem_s
Жаңа Тьюринг тесті
Қарапайым сұрақ жаңа интеллект тестіне айналуда:
"Автожуу менің үйімнен 40 метр қашықтықта орналасқан. Мен көлігімді жуғым келеді. Мен жаяу баруым керек пе, әлде көлікпен баруым керек пе?"
Өткен модельдер: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Сәтсіз модельдер: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Неліктен бұл тест маңызды? Өйткені ол «білімді іздеудің» орнына «қарапайым ақылды» тексереді. 40 метр – жаяу жүруге болатын қашықтық. Көлік кірлегендіктен жуу керек. Бірақ сіз кір көлікті 40 метрге апарып жумайсыз — егер сізде қарапайым ақыл болмаса.
Тарих қайталанбайды, бірақ ұйқасады
"Сарапшы жүйелер 1970 жылдары дүниеге келді, 1980 жылдары гүлденді және AI-дің болашағы ретінде кеңінен танылды." — @ChombaBupe
GPT модельдері 2018 жылы дүниеге келді, 2020 жылдары гүлденді және AI-дің болашағы ретінде кеңінен танылды.
Сарапшы жүйелердің сәтсіздігі ақылды болмағандықтан емес, техникалық қызмет көрсету құнының тым жоғары болуынан және кеңейтудің нашарлығынан болды. Білім базасын қолмен күту қажет болғанда, ауқым жау болып табылады.
GPT айналық мәселемен бетпе-бет келеді: модель ақылды, бірақ ойлау құны тым жоғары. Әрбір сұрау көп есептеуді қажет еткенде, ауқым да жау болып табылады.
Келесі қадам
Осы аптада бірнеше жаңа модельдер шығады деп күтілуде: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Бәсекелестік «кім ақылдырақ» дегеннен «кім арзанырақ» дегенге ауысуда. Бұл пайдаланушылар үшін жақсы жаңалық. OpenAI үшін бе? Міндетті емес.





