A Barreira de Custo do GPT
Na última semana, uma nova questão surgiu nas discussões sobre o GPT no X: não a capacidade, mas o custo.
ARC-AGI: A Fronteira da Inteligência
Desempenho dos modelos mais avançados atualmente no ARC-AGI-2:
| Modelo | Pontuação ARC-AGI-2 |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Humano | 100% |
A diferença entre 54% e 73% não é uma questão de inteligência, mas de "refinamento" – fazer com que o modelo verifique repetidamente suas próprias respostas. Isso requer mais computação, o que significa custos mais altos.
O Custo Real dos Agents
Custo anual de um Agent de nível empresarial 24 horas por dia, 7 dias por semana (20 milhões de tokens de entrada + 20 milhões de tokens de saída por dia):
| Modelo | Custo Anual |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
O GPT-5.2 Pro é 12 vezes mais caro que o GPT-5.2 Standard. Isso não é uma questão de estratégia de preços, mas de estrutura de custos.
"Antes de implantar 100 agentes de IA, faça as contas." — @waseem_s
O Novo Teste de Turing
Uma pergunta simples está se tornando um novo teste de inteligência:
"O lava-rápido fica a 40 metros da minha casa. Quero lavar o carro. Devo ir a pé ou de carro?"
Modelos que passaram: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Modelos que falharam: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Por que esse teste é significativo? Porque testa o "raciocínio de senso comum" em vez da "recuperação de conhecimento". 40 metros é uma distância para caminhar. O carro está sujo e precisa ser lavado. Mas você não dirigiria um carro sujo por 40 metros para lavá-lo – a menos que não tenha senso comum.
A História Não Se Repete, Mas Rima
"Os sistemas especialistas nasceram na década de 1970, floresceram na década de 1980 e foram amplamente considerados o futuro da IA." — @ChombaBupe
Os modelos GPT nasceram em 2018, floresceram na década de 2020 e são amplamente considerados o futuro da IA.
A falha dos sistemas especialistas não foi porque não eram inteligentes o suficiente, mas porque os custos de manutenção eram muito altos e a escalabilidade era muito ruim. Quando as bases de conhecimento precisam de manutenção manual, a escala é o inimigo.
O GPT enfrenta um problema semelhante: os modelos são inteligentes, mas o custo do raciocínio é muito alto. Quando cada solicitação requer muita computação, a escala também é o inimigo.
Próximos Passos
Espera-se que vários novos modelos sejam lançados esta semana: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
A competição está mudando de "quem é mais inteligente" para "quem é mais barato". Isso é uma boa notícia para os usuários. Para a OpenAI? Talvez não.





