GPT's omkostningsmur

2/17/2026
3 min read

I den forgangne uge er en ny fokus opstået i diskussionerne om GPT på X: ikke evner, men omkostninger.

ARC-AGI: Intelligensens grænse

Den nuværende mest avancerede models præstation på ARC-AGI-2:

ModelARC-AGI-2 Score
GPT-5.2 Pro~54%
GPT-5.2 Refine~73%
Menneske100%

Gabet mellem 54% og 73% er ikke et intelligensproblem, men "forfining" - at få modellen til gentagne gange at tjekke sine egne svar. Dette kræver mere beregning, hvilket betyder højere omkostninger.

Agentens reelle omkostninger

Årlige omkostninger for en 24/7 virksomheds-agent (20 millioner input + 20 millioner output tokens om dagen):

ModelÅrlige omkostninger
Palmyra X5~$48K
GPT-5.2 Standard~$57K
Gemini 2.5 Pro~$82K
Claude Sonnet 4.5~$131K
Claude Opus 4.6~$219K
GPT-5.2 Pro~$690K

GPT-5.2 Pro er 12 gange dyrere end GPT-5.2 Standard. Dette er ikke et spørgsmål om prisstrategi, men et spørgsmål om omkostningsstruktur.

"Før du implementerer 100 AI-agenter, så regn på det." — @waseem_s

Den nye Turing-test

Et simpelt spørgsmål er ved at blive den nye intelligens-test:

"Bilvasken ligger 40 meter fra mit hus. Jeg vil vaske min bil. Skal jeg gå eller køre derhen?"

Beståede modeller: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Fejlede modeller: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

Hvorfor er denne test meningsfuld? Fordi den tester "sund fornuft-ræsonnement" snarere end "viden-hentning". 40 meter er en gåafstand. Bilen er beskidt og skal vaskes. Men du vil ikke køre en beskidt bil 40 meter for at vaske den - medmindre du mangler sund fornuft.

Historien gentager sig ikke, men den rimer

"Ekspertsystemer blev født i 1970'erne, blomstrede i 1980'erne og blev bredt anset for at være AI's fremtid." — @ChombaBupe

GPT-modeller blev født i 2018, blomstrede i 2020'erne og bliver bredt anset for at være AI's fremtid.

Ekspertsystemernes fiasko skyldtes ikke, at de ikke var kloge nok, men at vedligeholdelsesomkostningerne var for høje, og skalerbarheden var for dårlig. Når vidensbasen skal vedligeholdes manuelt, er størrelsen fjenden.

GPT står over for et spejlbillede af dette problem: Modellerne er kloge, men ræsonnementet er for dyrt. Når hver anmodning kræver en masse beregning, er størrelsen også fjenden.

Næste skridt

Der forventes flere nye modeller i denne uge: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

Konkurrencen er ved at skifte fra "hvem er klogest" til "hvem er billigst". Dette er gode nyheder for brugerne. For OpenAI? Måske ikke.

Published in Technology

You Might Also Like