GPT's omkostningsmur
I den forgangne uge er en ny fokus opstået i diskussionerne om GPT på X: ikke evner, men omkostninger.
ARC-AGI: Intelligensens grænse
Den nuværende mest avancerede models præstation på ARC-AGI-2:
| Model | ARC-AGI-2 Score |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Menneske | 100% |
Gabet mellem 54% og 73% er ikke et intelligensproblem, men "forfining" - at få modellen til gentagne gange at tjekke sine egne svar. Dette kræver mere beregning, hvilket betyder højere omkostninger.
Agentens reelle omkostninger
Årlige omkostninger for en 24/7 virksomheds-agent (20 millioner input + 20 millioner output tokens om dagen):
| Model | Årlige omkostninger |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro er 12 gange dyrere end GPT-5.2 Standard. Dette er ikke et spørgsmål om prisstrategi, men et spørgsmål om omkostningsstruktur.
"Før du implementerer 100 AI-agenter, så regn på det." — @waseem_s
Den nye Turing-test
Et simpelt spørgsmål er ved at blive den nye intelligens-test:
"Bilvasken ligger 40 meter fra mit hus. Jeg vil vaske min bil. Skal jeg gå eller køre derhen?"
Beståede modeller: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Fejlede modeller: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Hvorfor er denne test meningsfuld? Fordi den tester "sund fornuft-ræsonnement" snarere end "viden-hentning". 40 meter er en gåafstand. Bilen er beskidt og skal vaskes. Men du vil ikke køre en beskidt bil 40 meter for at vaske den - medmindre du mangler sund fornuft.
Historien gentager sig ikke, men den rimer
"Ekspertsystemer blev født i 1970'erne, blomstrede i 1980'erne og blev bredt anset for at være AI's fremtid." — @ChombaBupe
GPT-modeller blev født i 2018, blomstrede i 2020'erne og bliver bredt anset for at være AI's fremtid.
Ekspertsystemernes fiasko skyldtes ikke, at de ikke var kloge nok, men at vedligeholdelsesomkostningerne var for høje, og skalerbarheden var for dårlig. Når vidensbasen skal vedligeholdes manuelt, er størrelsen fjenden.
GPT står over for et spejlbillede af dette problem: Modellerne er kloge, men ræsonnementet er for dyrt. Når hver anmodning kræver en masse beregning, er størrelsen også fjenden.
Næste skridt
Der forventes flere nye modeller i denne uge: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Konkurrencen er ved at skifte fra "hvem er klogest" til "hvem er billigst". Dette er gode nyheder for brugerne. For OpenAI? Måske ikke.





