El mur de costos de GPT

Durant la darrera setmana, la discussió sobre GPT a X ha pres un nou enfocament: no la capacitat, sinó el cost.

ARC-AGI: La frontera de la intel·ligència

El rendiment dels models més avançats actualment a ARC-AGI-2:

Model	Puntuació ARC-AGI-2
GPT-5.2 Pro	~54%
GPT-5.2 Refine	~73%
Humà	100%

La diferència entre el 54% i el 73% no és un problema d'intel·ligència, sinó de "refinament": fer que el model comprovi repetidament les seves pròpies respostes. Això requereix més càlcul, cosa que significa un cost més elevat.

El cost real dels Agents

Cost anual d'un Agent de nivell empresarial 24/7 (20 milions d'entrades + 20 milions de tokens de sortida per dia):

Model	Cost anual
Palmyra X5	~$48K
GPT-5.2 Standard	~$57K
Gemini 2.5 Pro	~$82K
Claude Sonnet 4.5	~$131K
Claude Opus 4.6	~$219K
GPT-5.2 Pro	~$690K

GPT-5.2 Pro és 12 vegades més car que GPT-5.2 Standard. Això no és un problema d'estratègia de preus, sinó un problema d'estructura de costos.

"Abans de desplegar 100 agents d'IA, feu els càlculs." — @waseem_s

El nou test de Turing

Una pregunta senzilla s'està convertint en el nou test d'intel·ligència:

"El rentador de cotxes és a 40 metres de casa meva. Vull rentar el cotxe. Hauria d'anar-hi caminant o conduint?"

Models que passen la prova: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Models que fallen la prova: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

Per què aquesta prova té sentit? Perquè prova el "raonament de sentit comú" en lloc de la "recuperació de coneixement". 40 metres és una distància per caminar. El cotxe està brut i necessita ser rentat. Però no conduiries un cotxe brut 40 metres per rentar-lo, tret que no tinguis sentit comú.

La història no es repeteix, però rima

"Els sistemes experts van néixer a la dècada de 1970, van prosperar a la dècada de 1980 i van ser àmpliament considerats com el futur de la IA." — @ChombaBupe

Els models GPT van néixer el 2018, van prosperar a la dècada de 2020 i són àmpliament considerats com el futur de la IA.

El fracàs dels sistemes experts no va ser perquè no fossin prou intel·ligents, sinó perquè els costos de manteniment eren massa elevats i l'escalabilitat era massa baixa. Quan la base de coneixement necessita manteniment manual, l'escala és l'enemic.

GPT s'enfronta a un problema mirall: el model és intel·ligent, però el cost del raonament és massa elevat. Quan cada sol·licitud requereix una gran quantitat de càlcul, l'escala també és l'enemic.

El següent pas

Aquesta setmana s'espera que es publiquin diversos models nous: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

La competència està passant de "qui és més intel·ligent" a "qui és més barat". Aquesta és una bona notícia per als usuaris. Per a OpenAI? Potser no.

El mur de costos de GPT

ARC-AGI: La frontera de la intel·ligència

El cost real dels Agents

El nou test de Turing

La història no es repeteix, però rima

El següent pas

You Might Also Like

Guia de modificació de Claude Code Buddy: com obtenir mascotes de llegenda brillants

Obsidian llança Defuddle, portant Obsidian Web Clipper a un nou nivell

OpenAI de sobte anuncia "tres en un": fusió de navegador + programació + ChatGPT, reconeixent que han comès errors durant l'últim any

2026, no et forcis a ser 'autònom'! Fes aquestes 8 petites coses, la salut vindrà de manera natural

Aquells pares que es dediquen a perdre pes i no ho aconsegueixen, segurament fallen aquí

Guia per a l'execució estable de l'AI Browser durant 24 hores