El muro de costos de GPT
En la última semana, la discusión sobre GPT en X ha tomado un nuevo enfoque: no la capacidad, sino el costo.
ARC-AGI: La frontera de la inteligencia
El rendimiento de los modelos más avanzados actualmente en ARC-AGI-2:
| Modelo | Puntaje ARC-AGI-2 |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Humano | 100% |
La diferencia entre 54% y 73% no es un problema de inteligencia, sino de "refinamiento": hacer que el modelo revise sus propias respuestas repetidamente. Esto requiere más cálculo, lo que significa un mayor costo.
El costo real de los Agentes
Costo anual de un Agente empresarial 24/7 (20 millones de tokens de entrada + 20 millones de tokens de salida por día):
| Modelo | Costo anual |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro es 12 veces más caro que GPT-5.2 Standard. Esto no es un problema de estrategia de precios, sino un problema de estructura de costos.
"Antes de implementar 100 agentes de IA, haz los cálculos." — @waseem_s
El nuevo test de Turing
Una pregunta simple se está convirtiendo en la nueva prueba de inteligencia:
"El lavadero de coches está a 40 metros de mi casa. Quiero lavar el coche. ¿Debería ir caminando o conduciendo?"
Modelos que pasan: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Modelos que fallan: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
¿Por qué esta prueba tiene sentido? Porque prueba el "razonamiento de sentido común" en lugar de la "recuperación de conocimiento". 40 metros es una distancia para caminar. El coche está sucio y necesita ser lavado. Pero no conducirías un coche sucio 40 metros para lavarlo, a menos que no tengas sentido común.
La historia no se repite, pero rima
"Los sistemas expertos nacieron en la década de 1970, florecieron en la década de 1980 y fueron ampliamente considerados como el futuro de la IA." — @ChombaBupe
Los modelos GPT nacieron en 2018, florecieron en la década de 2020 y son ampliamente considerados como el futuro de la IA.
El fracaso de los sistemas expertos no se debió a que no fueran lo suficientemente inteligentes, sino a que los costos de mantenimiento eran demasiado altos y la escalabilidad era demasiado pobre. Cuando la base de conocimiento necesita mantenimiento manual, la escala es el enemigo.
GPT enfrenta un problema similar: el modelo es inteligente, pero el costo de razonamiento es demasiado alto. Cuando cada solicitud requiere una gran cantidad de cálculo, la escala también es el enemigo.
Próximos pasos
Se espera que se publiquen varios modelos nuevos esta semana: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
La competencia está pasando de "quién es más inteligente" a "quién es más barato". Esta es una buena noticia para los usuarios. ¿Para OpenAI? No necesariamente.





