Ukuta wa Gharama wa GPT
Katika wiki iliyopita, mjadala kuhusu GPT kwenye X umeibua mwelekeo mpya: sio uwezo, bali gharama.
ARC-AGI: Mipaka ya Akili
Utendaji wa miundo ya kisasa zaidi kwenye ARC-AGI-2:
| Muundo | Alama za ARC-AGI-2 |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Binadamu | 100% |
Tofauti kati ya 54% na 73% sio suala la akili, ni "usafishaji" - kuruhusu muundo kujichunguza majibu yake mara kwa mara. Hii inahitaji hesabu zaidi, ikimaanisha gharama kubwa zaidi.
Gharama Halisi ya Agent
Gharama ya kila mwaka ya Agent ya kiwango cha biashara ya 24/7 (tokeni milioni 20 za ingizo + tokeni milioni 20 za matokeo) kwa mwaka:
| Muundo | Gharama ya Kila Mwaka |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro ni ghali mara 12 kuliko GPT-5.2 Standard. Hili sio suala la mkakati wa bei, ni suala la muundo wa gharama.
"Kabla ya kupeleka mawakala 100 wa AI, fanya hesabu." — @waseem_s
Mtihani Mpya wa Turing
Swali rahisi linakuwa mtihani mpya wa akili:
"Duka la kuosha magari liko mita 40 kutoka nyumbani kwangu. Ninataka kuosha gari langu. Je, ninapaswa kutembea au kuendesha gari?"
Miundo iliyofaulu: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Miundo iliyoshindwa: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Kwa nini mtihani huu una maana? Kwa sababu unajaribu "hoja ya kawaida" badala ya "upataji wa maarifa". Mita 40 ni umbali wa kutembea. Gari chafu linahitaji kuoshwa. Lakini huwezi kuendesha gari chafu mita 40 kwenda kuosha - isipokuwa hauna akili ya kawaida.
Historia Hairudii, Lakini Inalingana
"Mifumo ya wataalamu ilizaliwa katika miaka ya 1970, ilistawi katika miaka ya 1980, na ilionekana sana kama mustakabali wa AI." — @ChombaBupe
Miundo ya GPT ilizaliwa mwaka 2018, ilistawi katika miaka ya 2020, na inaonekana sana kama mustakabali wa AI.
Kushindwa kwa mifumo ya wataalamu hakukutokana na kutokuwa na akili ya kutosha, bali kwa sababu gharama za matengenezo zilikuwa za juu sana na uwezo wa kupanuka ulikuwa mbaya sana. Wakati msingi wa maarifa unahitaji matengenezo ya mwongozo, ukubwa ni adui.
GPT inakabiliwa na tatizo la kioo: muundo una akili, lakini gharama ya hoja ni kubwa sana. Wakati kila ombi linahitaji hesabu nyingi, ukubwa pia ni adui.
Hatua Inayofuata
Miundo kadhaa mipya inatarajiwa kutolewa wiki hii: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Mashindano yanabadilika kutoka "nani ana akili zaidi" hadi "nani ni nafuu zaidi". Hii ni habari njema kwa watumiaji. Kwa OpenAI? Labda sivyo.





