Stroškovni zid GPT
V zadnjem tednu se je na X pojavilo novo osredotočanje razprav o GPT: ne na zmogljivosti, ampak na stroške.
ARC-AGI: Meje inteligence
Trenutna uspešnost najnaprednejših modelov na ARC-AGI-2:
| Model | ARC-AGI-2 rezultat |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Človek | 100% |
Razlika med 54% in 73% ni v inteligenci, ampak v »izboljšavi« – da model večkrat preveri svoje odgovore. To zahteva več računanja, kar pomeni višje stroške.
Realni stroški agenta
Letni stroški 24/7 agenta za podjetja (20 milijonov vhodnih + 20 milijonov izhodnih žetonov na dan):
| Model | Letni stroški |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro je 12-krat dražji od GPT-5.2 Standard. To ni vprašanje strategije cen, ampak strukture stroškov.
"Preden uvedete 100 AI agentov, izračunajte." — @waseem_s
Novi Turingov test
Preprosto vprašanje postaja nov test inteligence:
"Avtopralnica je oddaljena 40 metrov od moje hiše. Želim oprati avto. Naj grem peš ali se odpeljem?"
Modeli, ki so opravili: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Modeli, ki niso opravili: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Zakaj je ta test smiseln? Ker preizkuša »zdravorazumsko sklepanje« in ne »iskanje znanja«. 40 metrov je razdalja za pešačenje. Avto je umazan in ga je treba oprati. Vendar ne boste vozili umazanega avtomobila 40 metrov, da bi ga oprali – razen če nimate zdrave pameti.
Zgodovina se ne ponavlja, se pa rima
"Ekspertni sistemi so se rodili v sedemdesetih letih, razcveteli v osemdesetih letih in so bili splošno priznani kot prihodnost umetne inteligence." — @ChombaBupe
Modeli GPT so se rodili leta 2018, razcveteli v dvajsetih letih in so splošno priznani kot prihodnost umetne inteligence.
Ekspertni sistemi niso propadli, ker niso bili dovolj pametni, ampak zato, ker so bili stroški vzdrževanja previsoki in razširljivost preslaba. Ko je treba bazo znanja vzdrževati ročno, je obseg sovražnik.
GPT se sooča s podobnim problemom: model je pameten, vendar je sklepanje predrago. Ko vsaka zahteva zahteva veliko računanja, je obseg prav tako sovražnik.
Naslednji koraki
Ta teden je pričakovana objava več novih modelov: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Konkurenca se preusmerja iz »kdo je pametnejši« v »kdo je cenejši«. To je dobra novica za uporabnike. Za OpenAI? Ni nujno.





