GPT kulude sein

Viimase nädala jooksul on X-is GPT kohta käiv arutelu keskendunud uuele fookusele: mitte võimekusele, vaid kuludele.

ARC-AGI: intelligentsuse piir

Praegu kõige arenenumate mudelite tulemused ARC-AGI-2-l:

Mudel	ARC-AGI-2 skoor
GPT-5.2 Pro	~54%
GPT-5.2 Refine	~73%
Inimene	100%

54% kuni 73% vahe ei ole intelligentsuse küsimus, vaid "täpsustamine" – mudeli korduv kontrollimine oma vastuste üle. See nõuab rohkem arvutusi, mis tähendab suuremaid kulusid.

Agendi tegelikud kulud

24/7 ettevõtte tasemel agendi (20 miljonit sisendit + 20 miljonit väljundit tokenit päevas) aastane kulu:

Mudel	Aastane kulu
Palmyra X5	~$48K
GPT-5.2 Standard	~$57K
Gemini 2.5 Pro	~$82K
Claude Sonnet 4.5	~$131K
Claude Opus 4.6	~$219K
GPT-5.2 Pro	~$690K

GPT-5.2 Pro on 12 korda kallim kui GPT-5.2 Standard. See ei ole hinnakujundusstrateegia küsimus, vaid kulustruktuuri küsimus.

"Enne 100 AI agendi kasutuselevõttu arvutage see välja." — @waseem_s

Uus Turingi test

Lihtsast küsimusest on saamas uus intelligentsuse test:

"Autopesula on minu kodust 40 meetri kaugusel. Ma tahan autot pesta. Kas ma peaksin minema jalgsi või autoga?"

Läbinud mudelid: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Läbikukkunud mudelid: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

Miks on see test oluline? Sest see testib "terve mõistuse arutlust" mitte "teadmiste otsingut". 40 meetrit on jalutuskäigu kaugus. Auto on määrdunud ja vajab pesemist. Kuid sa ei sõidaks määrdunud autoga 40 meetrit pesulasse – välja arvatud juhul, kui sa ei tea terve mõistust.

Ajalugu ei kordu, kuid riimub

"Ekspertsüsteemid sündisid 1970ndatel, õitsesid 1980ndatel ja neid peeti laialdaselt AI tulevikuks." — @ChombaBupe

GPT mudelid sündisid 2018. aastal, õitsesid 2020ndatel ja neid peetakse laialdaselt AI tulevikuks.

Ekspertsüsteemide ebaõnnestumine ei olnud tingitud sellest, et need ei olnud piisavalt targad, vaid sellest, et nende hoolduskulud olid liiga kõrged ja skaleeritavus liiga halb. Kui teadmistebaasi on vaja käsitsi hooldada, on suurus vaenlane.

GPT seisab silmitsi peegelpildiga probleemiga: mudelid on targad, kuid arutlemise kulud on liiga kõrged. Kui iga taotlus nõuab suurt hulka arvutusi, on suurus samuti vaenlane.

Järgmine samm

Sel nädalal on oodata mitmete uute mudelite avaldamist: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

Konkurents on liikumas "kes on targem" pealt "kes on odavam" peale. See on kasutajate jaoks hea uudis. OpenAI jaoks? Mitte tingimata.

GPT kulude sein

ARC-AGI: intelligentsuse piir

Agendi tegelikud kulud

Uus Turingi test

Ajalugu ei kordu, kuid riimub

Järgmine samm

You Might Also Like

Claude Code Buddy muutmise juhend: Kuidas saada sädelevat legendaarset lemmiklooma

Obsidian tutvustas Defuddle'i, viies Obsidian Web Clipperi uuele tasemele

OpenAI üllatavalt kuulutas välja "kolme ühes": brauser + programmeerimine + ChatGPT ühinemine, siseinfo tunnistab, et eelmisel aastal tehti valeotsuseid

2026, ära sunni end "distsipliini"! Tee need 8 väikest asja, tervis tuleb loomulikult

Need emad, kes püüavad kaalust alla võtta, kuid ei saa seda teha, on kindlasti siin kinni jäänud

AI Brauser 24 tunni stabiilse töö juhend