GPT's omkostningsmur

I den forgangne uge er en ny fokus opstået i diskussionerne om GPT på X: ikke evner, men omkostninger.

ARC-AGI: Intelligensens grænse

Den nuværende mest avancerede models præstation på ARC-AGI-2:

Model	ARC-AGI-2 Score
GPT-5.2 Pro	~54%
GPT-5.2 Refine	~73%
Menneske	100%

Gabet mellem 54% og 73% er ikke et intelligensproblem, men "forfining" - at få modellen til gentagne gange at tjekke sine egne svar. Dette kræver mere beregning, hvilket betyder højere omkostninger.

Agentens reelle omkostninger

Årlige omkostninger for en 24/7 virksomheds-agent (20 millioner input + 20 millioner output tokens om dagen):

Model	Årlige omkostninger
Palmyra X5	~$48K
GPT-5.2 Standard	~$57K
Gemini 2.5 Pro	~$82K
Claude Sonnet 4.5	~$131K
Claude Opus 4.6	~$219K
GPT-5.2 Pro	~$690K

GPT-5.2 Pro er 12 gange dyrere end GPT-5.2 Standard. Dette er ikke et spørgsmål om prisstrategi, men et spørgsmål om omkostningsstruktur.

"Før du implementerer 100 AI-agenter, så regn på det." — @waseem_s

Den nye Turing-test

Et simpelt spørgsmål er ved at blive den nye intelligens-test:

"Bilvasken ligger 40 meter fra mit hus. Jeg vil vaske min bil. Skal jeg gå eller køre derhen?"

Beståede modeller: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Fejlede modeller: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

Hvorfor er denne test meningsfuld? Fordi den tester "sund fornuft-ræsonnement" snarere end "viden-hentning". 40 meter er en gåafstand. Bilen er beskidt og skal vaskes. Men du vil ikke køre en beskidt bil 40 meter for at vaske den - medmindre du mangler sund fornuft.

Historien gentager sig ikke, men den rimer

"Ekspertsystemer blev født i 1970'erne, blomstrede i 1980'erne og blev bredt anset for at være AI's fremtid." — @ChombaBupe

GPT-modeller blev født i 2018, blomstrede i 2020'erne og bliver bredt anset for at være AI's fremtid.

Ekspertsystemernes fiasko skyldtes ikke, at de ikke var kloge nok, men at vedligeholdelsesomkostningerne var for høje, og skalerbarheden var for dårlig. Når vidensbasen skal vedligeholdes manuelt, er størrelsen fjenden.

GPT står over for et spejlbillede af dette problem: Modellerne er kloge, men ræsonnementet er for dyrt. Når hver anmodning kræver en masse beregning, er størrelsen også fjenden.

Næste skridt

Der forventes flere nye modeller i denne uge: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

Konkurrencen er ved at skifte fra "hvem er klogest" til "hvem er billigst". Dette er gode nyheder for brugerne. For OpenAI? Måske ikke.

GPT's omkostningsmur

ARC-AGI: Intelligensens grænse

Agentens reelle omkostninger

Den nye Turing-test

Historien gentager sig ikke, men den rimer

Næste skridt

You Might Also Like

Claude Code Buddy ændringsvejledning: Hvordan man får glitrende legendariske kæledyr

Obsidian har lanceret Defuddle, som tager Obsidian Web Clipper til nye højder

OpenAI pludselig annoncerer "tre-i-en": browser + programmering + ChatGPT fusionerer, internt erkender de, at de har taget fejl det forgangne år

2026, ikke længere tvinge sig selv til 'selvdisciplin'! Gør disse 8 små ting, så kommer sundheden naturligt

De mødre, der kæmper for at tabe sig, men ikke kan, falder bestemt her

AI Browser 24 timers stabil drift guide