GPTs kostnadsvegg

Den siste uken har en ny fokus dukket opp i diskusjonen om GPT på X: ikke kapasitet, men kostnad.

ARC-AGI: Intelligensens grense

Den nåværende toppmodellen sin ytelse på ARC-AGI-2:

Modell	ARC-AGI-2 poengsum
GPT-5.2 Pro	~54%
GPT-5.2 Refine	~73%
Menneske	100%

Gapet mellom 54% og 73% er ikke et spørsmål om intelligens, men om «forbedring» – å få modellen til å sjekke sine egne svar gjentatte ganger. Dette krever mer datakraft, noe som betyr høyere kostnader.

Den reelle kostnaden for Agenter

Årlig kostnad for 24/7 bedriftsagenter (20 millioner input + 20 millioner output tokens per dag):

Modell	Årlig kostnad
Palmyra X5	~$48K
GPT-5.2 Standard	~$57K
Gemini 2.5 Pro	~$82K
Claude Sonnet 4.5	~$131K
Claude Opus 4.6	~$219K
GPT-5.2 Pro	~$690K

GPT-5.2 Pro er 12 ganger dyrere enn GPT-5.2 Standard. Dette er ikke et spørsmål om prisstrategi, men om kostnadsstruktur.

"Før du distribuerer 100 AI-agenter, regn på det." — @waseem_s

Ny Turing-test

Et enkelt spørsmål er i ferd med å bli en ny intelligens-test:

"Bilvasken er 40 meter fra huset mitt. Jeg vil vaske bilen. Bør jeg gå eller kjøre?"

Modeller som besto: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Modeller som feilet: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

Hvorfor er denne testen meningsfull? Fordi den tester «sunn fornuft-resonnement» i stedet for «kunnskapssøk». 40 meter er gangavstand. Bilen er skitten og må vaskes. Men du kjører ikke en skitten bil 40 meter for å vaske den – med mindre du mangler sunn fornuft.

Historien gjentar seg ikke, men den rimer

"Ekspertsystemer ble født på 1970-tallet, blomstret på 1980-tallet og ble ansett som fremtiden for AI." — @ChombaBupe

GPT-modeller ble født i 2018, blomstrer på 2020-tallet og blir ansett som fremtiden for AI.

Ekspertsystemers fiasko skyldtes ikke at de ikke var smarte nok, men at vedlikeholdskostnadene var for høye og skalerbarheten for dårlig. Når kunnskapsbasen krever manuelt vedlikehold, er størrelse fienden.

GPT står overfor et speilvendt problem: modellen er smart, men resonnementskostnadene er for høye. Når hver forespørsel krever mye datakraft, er størrelse også fienden.

Neste steg

Flere nye modeller forventes å bli lansert denne uken: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

Konkurransen skifter fra «hvem er smartere» til «hvem er billigere». Dette er gode nyheter for brukerne. For OpenAI? Kanskje ikke.

GPTs kostnadsvegg

ARC-AGI: Intelligensens grense

Den reelle kostnaden for Agenter

Ny Turing-test

Historien gjentar seg ikke, men den rimer

Neste steg

You Might Also Like

Claude Code Buddy Modifikasjonsguide: Hvordan få glitrende legendariske kjæledyr

Obsidian har lansert Defuddle, og hevet Obsidian Web Clipper til nye høyder

OpenAI plutselig kunngjør "tre-i-ett": sammenslåing av nettleser + programmering + ChatGPT, internt innrømmer de at de har gått feil vei det siste året

2026, ikke tving deg selv til "selvdisiplin"! Gjør disse 8 små tingene, så kommer helsen naturlig

Mødre som sliter med å gå ned i vekt, er absolutt fanget her

AI Browser 24-timers stabil drift guide