El mur de costos de GPT

2/17/2026
3 min read

Durant la darrera setmana, la discussió sobre GPT a X ha pres un nou enfocament: no la capacitat, sinó el cost.

ARC-AGI: La frontera de la intel·ligència

El rendiment dels models més avançats actualment a ARC-AGI-2:

ModelPuntuació ARC-AGI-2
GPT-5.2 Pro~54%
GPT-5.2 Refine~73%
Humà100%

La diferència entre el 54% i el 73% no és un problema d'intel·ligència, sinó de "refinament": fer que el model comprovi repetidament les seves pròpies respostes. Això requereix més càlcul, cosa que significa un cost més elevat.

El cost real dels Agents

Cost anual d'un Agent de nivell empresarial 24/7 (20 milions d'entrades + 20 milions de tokens de sortida per dia):

ModelCost anual
Palmyra X5~$48K
GPT-5.2 Standard~$57K
Gemini 2.5 Pro~$82K
Claude Sonnet 4.5~$131K
Claude Opus 4.6~$219K
GPT-5.2 Pro~$690K

GPT-5.2 Pro és 12 vegades més car que GPT-5.2 Standard. Això no és un problema d'estratègia de preus, sinó un problema d'estructura de costos.

"Abans de desplegar 100 agents d'IA, feu els càlculs." — @waseem_s

El nou test de Turing

Una pregunta senzilla s'està convertint en el nou test d'intel·ligència:

"El rentador de cotxes és a 40 metres de casa meva. Vull rentar el cotxe. Hauria d'anar-hi caminant o conduint?"

Models que passen la prova: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Models que fallen la prova: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

Per què aquesta prova té sentit? Perquè prova el "raonament de sentit comú" en lloc de la "recuperació de coneixement". 40 metres és una distància per caminar. El cotxe està brut i necessita ser rentat. Però no conduiries un cotxe brut 40 metres per rentar-lo, tret que no tinguis sentit comú.

La història no es repeteix, però rima

"Els sistemes experts van néixer a la dècada de 1970, van prosperar a la dècada de 1980 i van ser àmpliament considerats com el futur de la IA." — @ChombaBupe

Els models GPT van néixer el 2018, van prosperar a la dècada de 2020 i són àmpliament considerats com el futur de la IA.

El fracàs dels sistemes experts no va ser perquè no fossin prou intel·ligents, sinó perquè els costos de manteniment eren massa elevats i l'escalabilitat era massa baixa. Quan la base de coneixement necessita manteniment manual, l'escala és l'enemic.

GPT s'enfronta a un problema mirall: el model és intel·ligent, però el cost del raonament és massa elevat. Quan cada sol·licitud requereix una gran quantitat de càlcul, l'escala també és l'enemic.

El següent pas

Aquesta setmana s'espera que es publiquin diversos models nous: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

La competència està passant de "qui és més intel·ligent" a "qui és més barat". Aquesta és una bona notícia per als usuaris. Per a OpenAI? Potser no.

Published in Technology

You Might Also Like