GPT-ov troškovni zid
Prošli tjedan, rasprava o GPT-u na X-u dobila je novi fokus: ne sposobnost, već trošak.
ARC-AGI: Granice inteligencije
Trenutna izvedba najnaprednijih modela na ARC-AGI-2:
| Model | ARC-AGI-2 rezultat |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Ljudi | 100% |
Razlika između 54% i 73% nije pitanje inteligencije, već "pročišćavanja" - dopuštanja modelu da više puta provjerava vlastite odgovore. To zahtijeva više računanja, što znači veće troškove.
Stvarni trošak Agenta
Godišnji trošak 24/7 Agent-a za poduzeća (20 milijuna ulaznih + 20 milijuna izlaznih tokena dnevno):
| Model | Godišnji trošak |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro je 12 puta skuplji od GPT-5.2 Standard. Ovo nije pitanje strategije cijena, već pitanje strukture troškova.
"Prije nego što implementirate 100 AI agenata, izračunajte." — @waseem_s
Novi Turingov test
Jednostavno pitanje postaje novi test inteligencije:
"Autopraonica je udaljena 40 metara od moje kuće. Želim oprati auto. Trebam li ići pješice ili se voziti?"
Modeli koji su prošli: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Modeli koji su pali: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Zašto je ovaj test smislen? Zato što testira "zdravorazumsko zaključivanje", a ne "pronalaženje znanja". 40 metara je udaljenost za hodanje. Auto je prljav i treba ga oprati. Ali nećete voziti prljavi auto 40 metara da biste ga oprali - osim ako nemate zdrav razum.
Povijest se ne ponavlja, ali se rimuje
"Ekspertni sustavi su rođeni 1970-ih, procvjetali 1980-ih i bili su naširoko smatrani budućnošću AI." — @ChombaBupe
GPT modeli su rođeni 2018., procvjetali 2020-ih i naširoko se smatraju budućnošću AI.
Neuspjeh ekspertnih sustava nije bio zato što nisu bili dovoljno pametni, već zato što su troškovi održavanja bili previsoki, a skalabilnost preslaba. Kada bazu znanja treba ručno održavati, veličina je neprijatelj.
GPT se suočava s zrcalnim problemom: model je pametan, ali je trošak zaključivanja previsok. Kada svaki zahtjev zahtijeva puno računanja, veličina je također neprijatelj.
Sljedeći koraci
Ovaj tjedan se očekuje izdavanje nekoliko novih modela: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Natjecanje se prebacuje s "tko je pametniji" na "tko je jeftiniji". To je dobra vijest za korisnike. Za OpenAI? Možda i ne.





