Le mur des coûts de GPT
La semaine dernière, une nouvelle question a émergé sur X concernant GPT : non pas ses capacités, mais ses coûts.
ARC-AGI : Les frontières de l'intelligence
Performances des modèles les plus avancés sur ARC-AGI-2 :
| Modèle | Score ARC-AGI-2 |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Humain | 100% |
L'écart entre 54% et 73% n'est pas une question d'intelligence, mais de « raffinement » - faire en sorte que le modèle vérifie ses propres réponses à plusieurs reprises. Cela nécessite plus de calculs, ce qui signifie des coûts plus élevés.
Le coût réel des Agents
Coût annuel d'un Agent d'entreprise 24h/24 et 7j/7 (20 millions de tokens d'entrée + 20 millions de tokens de sortie par jour) :
| Modèle | Coût annuel |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro est 12 fois plus cher que GPT-5.2 Standard. Ce n'est pas une question de stratégie de prix, mais de structure de coûts.
"Before you deploy 100 AI agents, run the math." — @waseem_s
Le nouveau test de Turing
Une question simple devient un nouveau test d'intelligence :
"La station de lavage est à 40 mètres de chez moi. Je veux laver ma voiture. Dois-je y aller à pied ou en voiture ?"
Modèles qui réussissent : GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Modèles qui échouent : GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Pourquoi ce test est-il significatif ? Parce qu'il teste le « raisonnement de bon sens » plutôt que la « récupération de connaissances ». 40 mètres est une distance de marche. La voiture est sale et doit être lavée. Mais vous ne conduiriez pas une voiture sale sur 40 mètres pour la laver - à moins de manquer de bon sens.
L'histoire ne se répète pas, mais elle rime
"Les systèmes experts sont nés dans les années 1970, ont prospéré dans les années 1980 et étaient largement considérés comme l'avenir de l'IA." — @ChombaBupe
Les modèles GPT sont nés en 2018, ont prospéré dans les années 2020 et sont largement considérés comme l'avenir de l'IA.
L'échec des systèmes experts n'était pas dû à un manque d'intelligence, mais à des coûts de maintenance trop élevés et à une évolutivité trop faible. Lorsque les bases de connaissances nécessitent une maintenance manuelle, la taille est l'ennemi.
GPT est confronté à un problème miroir : le modèle est intelligent, mais le coût du raisonnement est trop élevé. Lorsque chaque requête nécessite beaucoup de calculs, la taille est également l'ennemi.
Prochaines étapes
Plusieurs nouveaux modèles devraient être publiés cette semaine : Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
La concurrence passe de « qui est le plus intelligent » à « qui est le moins cher ». C'est une bonne nouvelle pour les utilisateurs. Pour OpenAI ? Pas nécessairement.





