El muro de costos de GPT

En la última semana, la discusión sobre GPT en X ha tomado un nuevo enfoque: no la capacidad, sino el costo.

ARC-AGI: La frontera de la inteligencia

El rendimiento de los modelos más avanzados actualmente en ARC-AGI-2:

Modelo	Puntaje ARC-AGI-2
GPT-5.2 Pro	~54%
GPT-5.2 Refine	~73%
Humano	100%

La diferencia entre 54% y 73% no es un problema de inteligencia, sino de "refinamiento": hacer que el modelo revise sus propias respuestas repetidamente. Esto requiere más cálculo, lo que significa un mayor costo.

El costo real de los Agentes

Costo anual de un Agente empresarial 24/7 (20 millones de tokens de entrada + 20 millones de tokens de salida por día):

Modelo	Costo anual
Palmyra X5	~$48K
GPT-5.2 Standard	~$57K
Gemini 2.5 Pro	~$82K
Claude Sonnet 4.5	~$131K
Claude Opus 4.6	~$219K
GPT-5.2 Pro	~$690K

GPT-5.2 Pro es 12 veces más caro que GPT-5.2 Standard. Esto no es un problema de estrategia de precios, sino un problema de estructura de costos.

"Antes de implementar 100 agentes de IA, haz los cálculos." — @waseem_s

El nuevo test de Turing

Una pregunta simple se está convirtiendo en la nueva prueba de inteligencia:

"El lavadero de coches está a 40 metros de mi casa. Quiero lavar el coche. ¿Debería ir caminando o conduciendo?"

Modelos que pasan: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Modelos que fallan: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

¿Por qué esta prueba tiene sentido? Porque prueba el "razonamiento de sentido común" en lugar de la "recuperación de conocimiento". 40 metros es una distancia para caminar. El coche está sucio y necesita ser lavado. Pero no conducirías un coche sucio 40 metros para lavarlo, a menos que no tengas sentido común.

La historia no se repite, pero rima

"Los sistemas expertos nacieron en la década de 1970, florecieron en la década de 1980 y fueron ampliamente considerados como el futuro de la IA." — @ChombaBupe

Los modelos GPT nacieron en 2018, florecieron en la década de 2020 y son ampliamente considerados como el futuro de la IA.

El fracaso de los sistemas expertos no se debió a que no fueran lo suficientemente inteligentes, sino a que los costos de mantenimiento eran demasiado altos y la escalabilidad era demasiado pobre. Cuando la base de conocimiento necesita mantenimiento manual, la escala es el enemigo.

GPT enfrenta un problema similar: el modelo es inteligente, pero el costo de razonamiento es demasiado alto. Cuando cada solicitud requiere una gran cantidad de cálculo, la escala también es el enemigo.

Próximos pasos

Se espera que se publiquen varios modelos nuevos esta semana: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

La competencia está pasando de "quién es más inteligente" a "quién es más barato". Esta es una buena noticia para los usuarios. ¿Para OpenAI? No necesariamente.

El muro de costos de GPT

ARC-AGI: La frontera de la inteligencia

El costo real de los Agentes

El nuevo test de Turing

La historia no se repite, pero rima

Próximos pasos

You Might Also Like

Guía de Modificación de Claude Code Buddy: Cómo Obtener Mascotas Legendarias Brillantes

Obsidian lanzó Defuddle, llevando Obsidian Web Clipper a un nuevo nivel

OpenAI anuncia de repente 'tres en uno': fusión de navegador + programación + ChatGPT, admitiendo errores en el último año

2026, ¡no más forzarme a ser 'disciplinado'! Haz estas 8 pequeñas cosas y la salud vendrá naturalmente

Las mamás que se esfuerzan por perder peso y no lo logran, definitivamente están atrapadas aquí

Guía para el funcionamiento estable del navegador AI 24 horas