Nákladová bariéra GPT
V uplynulém týdnu se v diskusích o GPT na X objevil nový fokus: ne schopnosti, ale náklady.
ARC-AGI: Hranice inteligence
Výkonnost aktuálně nejpokročilejších modelů na ARC-AGI-2:
| Model | ARC-AGI-2 skóre |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Člověk | 100% |
Rozdíl mezi 54 % a 73 % není otázkou inteligence, ale „vylepšení“ – nechat model opakovaně kontrolovat své odpovědi. To vyžaduje více výpočtů, což znamená vyšší náklady.
Skutečné náklady Agentů
Roční náklady na podnikového Agenta 24/7 (20 milionů vstupních + 20 milionů výstupních tokenů denně):
| Model | Roční náklady |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro je 12krát dražší než GPT-5.2 Standard. Nejde o problém cenové strategie, ale o problém nákladové struktury.
"Než nasadíte 100 AI agentů, spočítejte si to." — @waseem_s
Nový Turingův test
Jednoduchá otázka se stává novým testem inteligence:
"Myčka aut je 40 metrů od mého domu. Chci umýt auto. Mám jít pěšky nebo jet autem?"
Prošly modely: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Neprošly modely: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Proč má tento test smysl? Protože testuje „zdravý rozum“ spíše než „vyhledávání znalostí“. 40 metrů je vzdálenost na chůzi. Auto je špinavé a potřebuje umýt. Ale nepojedete špinavým autem 40 metrů na mytí – pokud nemáte zdravý rozum.
Historie se neopakuje, ale rýmuje se
"Expertní systémy se zrodily v 70. letech, v 80. letech vzkvétaly a byly široce považovány za budoucnost AI." — @ChombaBupe
GPT modely se zrodily v roce 2018, vzkvétají ve 20. letech 21. století a jsou široce považovány za budoucnost AI.
Expertní systémy selhaly ne proto, že by nebyly dostatečně chytré, ale proto, že jejich údržba byla příliš nákladná a škálovatelnost příliš špatná. Když znalostní bázi musí udržovat lidé, velikost je nepřítelem.
GPT čelí zrcadlovému problému: model je chytrý, ale usuzování je příliš nákladné. Když každý požadavek vyžaduje velké množství výpočtů, velikost je také nepřítelem.
Další kroky
Tento týden se očekává vydání několika nových modelů: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Konkurence se přesouvá od „kdo je chytřejší“ k „kdo je levnější“. To je pro uživatele dobrá zpráva. Pro OpenAI? Možná ne.





