De kostenmuur van GPT
De afgelopen week is er een nieuwe focus ontstaan in de discussie over GPT op X: niet het vermogen, maar de kosten.
ARC-AGI: De grenzen van intelligentie
De prestaties van de meest geavanceerde modellen op ARC-AGI-2:
| Model | ARC-AGI-2 Score |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Mens | 100% |
Het verschil tussen 54% en 73% is geen kwestie van intelligentie, maar van "verfijning" - het model herhaaldelijk zijn eigen antwoorden laten controleren. Dit vereist meer berekeningen, wat hogere kosten betekent.
De werkelijke kosten van Agents
De jaarlijkse kosten van 24/7 enterprise-grade Agents (20 miljoen input + 20 miljoen output tokens per dag):
| Model | Jaarlijkse kosten |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro is 12 keer duurder dan GPT-5.2 Standard. Dit is geen kwestie van prijsstrategie, maar van kostenstructuur.
"Before you deploy 100 AI agents, run the math." — @waseem_s
De nieuwe Turingtest
Een simpele vraag wordt de nieuwe intelligentietest:
"De autowasstraat is 40 meter van mijn huis. Ik wil mijn auto wassen. Moet ik lopen of rijden?"
Geslaagde modellen: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Gefaald modellen: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Waarom is deze test zinvol? Omdat het "gezond verstand redeneren" test in plaats van "kennis ophalen". 40 meter is loopafstand. De auto is vies en moet gewassen worden. Maar je rijdt niet 40 meter met een vieze auto om hem te wassen - tenzij je geen gezond verstand hebt.
De geschiedenis herhaalt zich niet, maar rijmt wel
"Expertsystemen werden geboren in de jaren 70, bloeiden op in de jaren 80 en werden algemeen beschouwd als de toekomst van AI." — @ChombaBupe
GPT-modellen werden geboren in 2018, bloeiden op in de jaren 2020 en worden algemeen beschouwd als de toekomst van AI.
Het falen van expertsystemen was niet omdat ze niet slim genoeg waren, maar omdat de onderhoudskosten te hoog waren en de schaalbaarheid te slecht. Wanneer de kennisbank handmatig moet worden onderhouden, is schaal de vijand.
GPT staat voor een spiegelbeeldig probleem: het model is slim, maar de redeneerkosten zijn te hoog. Wanneer elk verzoek veel berekeningen vereist, is schaal ook de vijand.
Volgende stappen
Er worden deze week naar verwachting meerdere nieuwe modellen uitgebracht: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
De concurrentie verschuift van "wie is slimmer" naar "wie is goedkoper". Dit is goed nieuws voor gebruikers. Voor OpenAI? Misschien niet.





