GPTs kostnadsvegg

2/17/2026
3 min read

Den siste uken har en ny fokus dukket opp i diskusjonen om GPT på X: ikke kapasitet, men kostnad.

ARC-AGI: Intelligensens grense

Den nåværende toppmodellen sin ytelse på ARC-AGI-2:

ModellARC-AGI-2 poengsum
GPT-5.2 Pro~54%
GPT-5.2 Refine~73%
Menneske100%

Gapet mellom 54% og 73% er ikke et spørsmål om intelligens, men om «forbedring» – å få modellen til å sjekke sine egne svar gjentatte ganger. Dette krever mer datakraft, noe som betyr høyere kostnader.

Den reelle kostnaden for Agenter

Årlig kostnad for 24/7 bedriftsagenter (20 millioner input + 20 millioner output tokens per dag):

ModellÅrlig kostnad
Palmyra X5~$48K
GPT-5.2 Standard~$57K
Gemini 2.5 Pro~$82K
Claude Sonnet 4.5~$131K
Claude Opus 4.6~$219K
GPT-5.2 Pro~$690K

GPT-5.2 Pro er 12 ganger dyrere enn GPT-5.2 Standard. Dette er ikke et spørsmål om prisstrategi, men om kostnadsstruktur.

"Før du distribuerer 100 AI-agenter, regn på det." — @waseem_s

Ny Turing-test

Et enkelt spørsmål er i ferd med å bli en ny intelligens-test:

"Bilvasken er 40 meter fra huset mitt. Jeg vil vaske bilen. Bør jeg gå eller kjøre?"

Modeller som besto: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Modeller som feilet: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

Hvorfor er denne testen meningsfull? Fordi den tester «sunn fornuft-resonnement» i stedet for «kunnskapssøk». 40 meter er gangavstand. Bilen er skitten og må vaskes. Men du kjører ikke en skitten bil 40 meter for å vaske den – med mindre du mangler sunn fornuft.

Historien gjentar seg ikke, men den rimer

"Ekspertsystemer ble født på 1970-tallet, blomstret på 1980-tallet og ble ansett som fremtiden for AI." — @ChombaBupe

GPT-modeller ble født i 2018, blomstrer på 2020-tallet og blir ansett som fremtiden for AI.

Ekspertsystemers fiasko skyldtes ikke at de ikke var smarte nok, men at vedlikeholdskostnadene var for høye og skalerbarheten for dårlig. Når kunnskapsbasen krever manuelt vedlikehold, er størrelse fienden.

GPT står overfor et speilvendt problem: modellen er smart, men resonnementskostnadene er for høye. Når hver forespørsel krever mye datakraft, er størrelse også fienden.

Neste steg

Flere nye modeller forventes å bli lansert denne uken: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

Konkurransen skifter fra «hvem er smartere» til «hvem er billigere». Dette er gode nyheter for brukerne. For OpenAI? Kanskje ikke.

Published in Technology

You Might Also Like