El mur de costos de GPT
Durant la darrera setmana, la discussió sobre GPT a X ha pres un nou enfocament: no la capacitat, sinó el cost.
ARC-AGI: La frontera de la intel·ligència
El rendiment dels models més avançats actualment a ARC-AGI-2:
| Model | Puntuació ARC-AGI-2 |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Humà | 100% |
La diferència entre el 54% i el 73% no és un problema d'intel·ligència, sinó de "refinament": fer que el model comprovi repetidament les seves pròpies respostes. Això requereix més càlcul, cosa que significa un cost més elevat.
El cost real dels Agents
Cost anual d'un Agent de nivell empresarial 24/7 (20 milions d'entrades + 20 milions de tokens de sortida per dia):
| Model | Cost anual |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro és 12 vegades més car que GPT-5.2 Standard. Això no és un problema d'estratègia de preus, sinó un problema d'estructura de costos.
"Abans de desplegar 100 agents d'IA, feu els càlculs." — @waseem_s
El nou test de Turing
Una pregunta senzilla s'està convertint en el nou test d'intel·ligència:
"El rentador de cotxes és a 40 metres de casa meva. Vull rentar el cotxe. Hauria d'anar-hi caminant o conduint?"
Models que passen la prova: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Models que fallen la prova: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Per què aquesta prova té sentit? Perquè prova el "raonament de sentit comú" en lloc de la "recuperació de coneixement". 40 metres és una distància per caminar. El cotxe està brut i necessita ser rentat. Però no conduiries un cotxe brut 40 metres per rentar-lo, tret que no tinguis sentit comú.
La història no es repeteix, però rima
"Els sistemes experts van néixer a la dècada de 1970, van prosperar a la dècada de 1980 i van ser àmpliament considerats com el futur de la IA." — @ChombaBupe
Els models GPT van néixer el 2018, van prosperar a la dècada de 2020 i són àmpliament considerats com el futur de la IA.
El fracàs dels sistemes experts no va ser perquè no fossin prou intel·ligents, sinó perquè els costos de manteniment eren massa elevats i l'escalabilitat era massa baixa. Quan la base de coneixement necessita manteniment manual, l'escala és l'enemic.
GPT s'enfronta a un problema mirall: el model és intel·ligent, però el cost del raonament és massa elevat. Quan cada sol·licitud requereix una gran quantitat de càlcul, l'escala també és l'enemic.
El següent pas
Aquesta setmana s'espera que es publiquin diversos models nous: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
La competència està passant de "qui és més intel·ligent" a "qui és més barat". Aquesta és una bona notícia per als usuaris. Per a OpenAI? Potser no.





