GPT:s kostnadsvägg

Under den senaste veckan har en ny fokuspunkt dykt upp i diskussionerna om GPT på X: inte förmågan, utan kostnaden.

ARC-AGI: Intelligensens gräns

Prestandan för de mest avancerade modellerna på ARC-AGI-2:

Modell	ARC-AGI-2 Poäng
GPT-5.2 Pro	~54%
GPT-5.2 Refine	~73%
Människa	100%

Skillnaden mellan 54% och 73% är inte en fråga om intelligens, utan om "förfining" – att få modellen att upprepade gånger kontrollera sina egna svar. Detta kräver mer beräkning, vilket innebär högre kostnader.

Agenters verkliga kostnad

Årskostnaden för 24/7 företagsagenter (20 miljoner inmatningstokens + 20 miljoner utmatningstokens per dag):

Modell	Årskostnad
Palmyra X5	~$48K
GPT-5.2 Standard	~$57K
Gemini 2.5 Pro	~$82K
Claude Sonnet 4.5	~$131K
Claude Opus 4.6	~$219K
GPT-5.2 Pro	~$690K

GPT-5.2 Pro är 12 gånger dyrare än GPT-5.2 Standard. Detta är inte en fråga om prissättningsstrategi, utan om kostnadsstruktur.

"Innan du driftsätter 100 AI-agenter, räkna på det." — @waseem_s

Nya Turingtestet

En enkel fråga håller på att bli det nya intelligenstestet:

"Biltvätten ligger 40 meter från mitt hem. Jag vill tvätta bilen. Ska jag gå eller köra dit?"

Godkända modeller: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Underkända modeller: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

Varför är detta test meningsfullt? Eftersom det testar "sunt förnuft" snarare än "kunskapsinhämtning". 40 meter är gångavstånd. Bilen är smutsig och behöver tvättas. Men du kör inte en smutsig bil 40 meter för att tvätta den – om du inte saknar sunt förnuft.

Historien upprepar sig inte, men den rimmar

"Expertsystem föddes på 1970-talet, blomstrade på 1980-talet och ansågs allmänt vara AI:s framtid." — @ChombaBupe

GPT-modeller föddes 2018, blomstrade på 2020-talet och anses allmänt vara AI:s framtid.

Expertsystems misslyckande berodde inte på att de var otillräckligt intelligenta, utan på att underhållskostnaderna var för höga och skalbarheten för dålig. När kunskapsbasen kräver manuellt underhåll är storleken fienden.

GPT står inför ett spegelvänt problem: modellen är smart, men resonemangskostnaderna är för höga. När varje förfrågan kräver stora beräkningar är storleken också fienden.

Nästa steg

Flera nya modeller förväntas släppas denna vecka: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

Konkurrensen håller på att skifta från "vem är smartast" till "vem är billigast". Det är goda nyheter för användarna. För OpenAI? Kanske inte.

GPT:s kostnadsvägg

ARC-AGI: Intelligensens gräns

Agenters verkliga kostnad

Nya Turingtestet

Historien upprepar sig inte, men den rimmar

Nästa steg

You Might Also Like

Claude Code Buddy ändringsguide: Hur man får glänsande legendariska husdjur

Obsidian har lanserat Defuddle, som tar Obsidian Web Clipper till en ny höjd

OpenAI plötsligt tillkännager "tre-i-ett": webbläsare + programmering + ChatGPT sammanslagning, internt erkännande av felaktig väg det senaste året

2026, sluta pressa dig själv till 'självdisciplin'! Gör dessa 8 små saker, hälsan kommer naturligt

De mammor som kämpar för att gå ner i vikt men inte lyckas, faller definitivt här

AI Browser 24-timmars stabil driftguide