GPTs kostnadsvegg
Den siste uken har en ny fokus dukket opp i diskusjonen om GPT på X: ikke kapasitet, men kostnad.
ARC-AGI: Intelligensens grense
Den nåværende toppmodellen sin ytelse på ARC-AGI-2:
| Modell | ARC-AGI-2 poengsum |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Menneske | 100% |
Gapet mellom 54% og 73% er ikke et spørsmål om intelligens, men om «forbedring» – å få modellen til å sjekke sine egne svar gjentatte ganger. Dette krever mer datakraft, noe som betyr høyere kostnader.
Den reelle kostnaden for Agenter
Årlig kostnad for 24/7 bedriftsagenter (20 millioner input + 20 millioner output tokens per dag):
| Modell | Årlig kostnad |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro er 12 ganger dyrere enn GPT-5.2 Standard. Dette er ikke et spørsmål om prisstrategi, men om kostnadsstruktur.
"Før du distribuerer 100 AI-agenter, regn på det." — @waseem_s
Ny Turing-test
Et enkelt spørsmål er i ferd med å bli en ny intelligens-test:
"Bilvasken er 40 meter fra huset mitt. Jeg vil vaske bilen. Bør jeg gå eller kjøre?"
Modeller som besto: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Modeller som feilet: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Hvorfor er denne testen meningsfull? Fordi den tester «sunn fornuft-resonnement» i stedet for «kunnskapssøk». 40 meter er gangavstand. Bilen er skitten og må vaskes. Men du kjører ikke en skitten bil 40 meter for å vaske den – med mindre du mangler sunn fornuft.
Historien gjentar seg ikke, men den rimer
"Ekspertsystemer ble født på 1970-tallet, blomstret på 1980-tallet og ble ansett som fremtiden for AI." — @ChombaBupe
GPT-modeller ble født i 2018, blomstrer på 2020-tallet og blir ansett som fremtiden for AI.
Ekspertsystemers fiasko skyldtes ikke at de ikke var smarte nok, men at vedlikeholdskostnadene var for høye og skalerbarheten for dårlig. Når kunnskapsbasen krever manuelt vedlikehold, er størrelse fienden.
GPT står overfor et speilvendt problem: modellen er smart, men resonnementskostnadene er for høye. Når hver forespørsel krever mye datakraft, er størrelse også fienden.
Neste steg
Flere nye modeller forventes å bli lansert denne uken: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Konkurransen skifter fra «hvem er smartere» til «hvem er billigere». Dette er gode nyheter for brukerne. For OpenAI? Kanskje ikke.





