Kostnaðarveggur GPT
Undanfarna viku hefur nýtt áhersluatriði komið upp í umræðum um GPT á X: ekki geta, heldur kostnaður.
ARC-AGI: Mörk greindar
Frammistaða fullkomnustu líkana á ARC-AGI-2:
| Líkan | ARC-AGI-2 stig |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Maður | 100% |
Mismunurinn á milli 54% og 73% er ekki spurning um greind, heldur „fínpússun“ – að láta líkanið endurskoða svör sín ítrekað. Þetta krefst meiri útreikninga, sem þýðir hærri kostnað.
Raunverulegur kostnaður umboðsmanns
Árlegur kostnaður við 24/7 umboðsmann á fyrirtækjastigi (20 milljónir inntaks + 20 milljónir úttaks tákn á dag):
| Líkan | Árlegur kostnaður |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro er 12 sinnum dýrari en GPT-5.2 Standard. Þetta er ekki spurning um verðlagningarstefnu, heldur kostnaðaruppbyggingu.
"Áður en þú setur 100 gervigreindarumboðsmenn í gang skaltu reikna dæmið." — @waseem_s
Nýtt Turing próf
Einföld spurning er að verða nýtt greindarpróf:
„Bílaþvottastöðin er 40 metra frá heimilinu mínu. Ég vil þvo bílinn. Ætti ég að ganga eða keyra þangað?“
Líkan sem stóðust: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Líkan sem féllu: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Hvers vegna er þetta próf mikilvægt? Vegna þess að það prófar „almenna skynsemi“ frekar en „þekkingarleit“. 40 metrar er göngufjarlægð. Bíllinn er skítugur og þarf að þvo hann. En þú myndir ekki keyra skítugan bíl 40 metra til að þvo hann – nema þú hafir ekki almenna skynsemi.
Sagan endurtekur sig ekki, en hún rímar
„Sérfræðingakerfi fæddust á áttunda áratugnum, blómstruðu á níunda áratugnum og voru almennt talin framtíð gervigreindar.“ — @ChombaBupe
GPT líkön fæddust árið 2018, blómstruðu á þriðja áratugnum og eru almennt talin framtíð gervigreindar.
Bilun sérfræðingakerfa var ekki vegna þess að þau voru ekki nógu klár, heldur vegna þess að viðhaldskostnaður var of hár og stækkanleiki of lélegur. Þegar þekkingargrunnur þarf handvirkt viðhald er umfang óvinurinn.
GPT stendur frammi fyrir spegilmyndavandamáli: líkanið er klárt, en rökstuðningskostnaður er of hár. Þegar hver beiðni krefst mikilla útreikninga er umfang einnig óvinurinn.
Næstu skref
Gert er ráð fyrir að nokkur ný líkön verði gefin út í þessari viku: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Samkeppnin er að færast frá „hver er klárari“ yfir í „hver er ódýrari“. Þetta eru góðar fréttir fyrir notendur. Fyrir OpenAI? Kannski ekki.





