Kostnaðarveggur GPT

Undanfarna viku hefur nýtt áhersluatriði komið upp í umræðum um GPT á X: ekki geta, heldur kostnaður.

ARC-AGI: Mörk greindar

Frammistaða fullkomnustu líkana á ARC-AGI-2:

Líkan	ARC-AGI-2 stig
GPT-5.2 Pro	~54%
GPT-5.2 Refine	~73%
Maður	100%

Mismunurinn á milli 54% og 73% er ekki spurning um greind, heldur „fínpússun“ – að láta líkanið endurskoða svör sín ítrekað. Þetta krefst meiri útreikninga, sem þýðir hærri kostnað.

Raunverulegur kostnaður umboðsmanns

Árlegur kostnaður við 24/7 umboðsmann á fyrirtækjastigi (20 milljónir inntaks + 20 milljónir úttaks tákn á dag):

Líkan	Árlegur kostnaður
Palmyra X5	~$48K
GPT-5.2 Standard	~$57K
Gemini 2.5 Pro	~$82K
Claude Sonnet 4.5	~$131K
Claude Opus 4.6	~$219K
GPT-5.2 Pro	~$690K

GPT-5.2 Pro er 12 sinnum dýrari en GPT-5.2 Standard. Þetta er ekki spurning um verðlagningarstefnu, heldur kostnaðaruppbyggingu.

"Áður en þú setur 100 gervigreindarumboðsmenn í gang skaltu reikna dæmið." — @waseem_s

Nýtt Turing próf

Einföld spurning er að verða nýtt greindarpróf:

„Bílaþvottastöðin er 40 metra frá heimilinu mínu. Ég vil þvo bílinn. Ætti ég að ganga eða keyra þangað?“

Líkan sem stóðust: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Líkan sem féllu: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

Hvers vegna er þetta próf mikilvægt? Vegna þess að það prófar „almenna skynsemi“ frekar en „þekkingarleit“. 40 metrar er göngufjarlægð. Bíllinn er skítugur og þarf að þvo hann. En þú myndir ekki keyra skítugan bíl 40 metra til að þvo hann – nema þú hafir ekki almenna skynsemi.

Sagan endurtekur sig ekki, en hún rímar

„Sérfræðingakerfi fæddust á áttunda áratugnum, blómstruðu á níunda áratugnum og voru almennt talin framtíð gervigreindar.“ — @ChombaBupe

GPT líkön fæddust árið 2018, blómstruðu á þriðja áratugnum og eru almennt talin framtíð gervigreindar.

Bilun sérfræðingakerfa var ekki vegna þess að þau voru ekki nógu klár, heldur vegna þess að viðhaldskostnaður var of hár og stækkanleiki of lélegur. Þegar þekkingargrunnur þarf handvirkt viðhald er umfang óvinurinn.

GPT stendur frammi fyrir spegilmyndavandamáli: líkanið er klárt, en rökstuðningskostnaður er of hár. Þegar hver beiðni krefst mikilla útreikninga er umfang einnig óvinurinn.

Næstu skref

Gert er ráð fyrir að nokkur ný líkön verði gefin út í þessari viku: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

Samkeppnin er að færast frá „hver er klárari“ yfir í „hver er ódýrari“. Þetta eru góðar fréttir fyrir notendur. Fyrir OpenAI? Kannski ekki.

Kostnaðarveggur GPT

ARC-AGI: Mörk greindar

Raunverulegur kostnaður umboðsmanns

Nýtt Turing próf

Sagan endurtekur sig ekki, en hún rímar

Næstu skref

You Might Also Like

Claude Code Buddy breytingarleiðbeiningar: Hvernig á að fá glitrandi goðsagnir dýr

Obsidian hefur gefið út Defuddle, sem lyftir Obsidian Web Clipper á nýjan hæð

OpenAI tilkynnti skyndilega "þrjú í eitt": Vafri + forritun + ChatGPT sameining, innanhúss viðurkenndu þau að hafa farið rangt að síðasta árið

2026, ekki lengur að þrýsta á sjálfan sig "sjálfsaga"! Gerðu þessar 8 litlu hluti, heilsa kemur náttúrulega

Mæðurnar sem reyna að léttast en ná ekki árangri, eru örugglega að lenda í þessu

AI Browser 24 tíma stöðugleika leiðbeiningar