Muri i Kostos i GPT
Gjatë javës së kaluar, diskutimet në X rreth GPT kanë një fokus të ri: jo aftësia, por kostoja.
ARC-AGI: Kufiri i Inteligjencës
Performanca e modeleve më të avancuara aktualisht në ARC-AGI-2:
| Modeli | Rezultati ARC-AGI-2 |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Njeriu | 100% |
Ndryshimi midis 54% dhe 73% nuk është çështje inteligjence, por "rafinimi" - duke e bërë modelin të kontrollojë përgjigjet e veta në mënyrë të përsëritur. Kjo kërkon më shumë llogaritje, që do të thotë kosto më të lartë.
Kostoja e Vërtetë e Agjentit
Kostoja vjetore e një Agjenti të nivelit të ndërmarrjes 24/7 (20 milionë hyrje + 20 milionë dalje tokens në ditë):
| Modeli | Kostoja Vjetore |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro është 12 herë më i shtrenjtë se GPT-5.2 Standard. Kjo nuk është një çështje strategjie çmimi, por një çështje strukture kostoje.
"Para se të vendosni 100 agjentë AI, bëni llogaritjet." — @waseem_s
Testi i Ri i Turingut
Një pyetje e thjeshtë po bëhet një test i ri i inteligjencës:
"Lavazhi i makinave është 40 metra larg shtëpisë sime. Dua të laj makinën. A duhet të shkoj në këmbë apo me makinë?"
Modelet që kaluan: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Modelet që dështuan: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Pse ky test ka kuptim? Sepse teston "arsyetimin e shëndoshë" dhe jo "rikthimin e njohurive". 40 metra është një distancë për të ecur. Makina është e ndotur dhe duhet larë. Por ju nuk do ta ngisni një makinë të ndotur 40 metra për ta larë - përveç nëse nuk keni sens të përbashkët.
Historia nuk përsëritet, por rimon
"Sistemet eksperte lindën në vitet 1970, lulëzuan në vitet 1980 dhe u konsideruan gjerësisht si e ardhmja e AI." — @ChombaBupe
Modelet GPT lindën në vitin 2018, lulëzuan në vitet 2020 dhe konsiderohen gjerësisht si e ardhmja e AI.
Dështimi i sistemeve eksperte nuk ishte sepse nuk ishin mjaftueshëm të zgjuara, por sepse kostot e mirëmbajtjes ishin shumë të larta dhe shkallëzimi ishte shumë i dobët. Kur baza e njohurive kërkon mirëmbajtje manuale, shkalla është armiku.
GPT po përballet me një problem të ngjashëm: modeli është i zgjuar, por kostoja e arsyetimit është shumë e lartë. Kur çdo kërkesë kërkon shumë llogaritje, shkalla është gjithashtu armiku.
Hapat e Ardhshëm
Disa modele të reja priten të dalin këtë javë: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Konkurrenca po zhvendoset nga "kush është më i zgjuar" në "kush është më i lirë". Kjo është një lajm i mirë për përdoruesit. Për OpenAI? Jo domosdoshmërisht.





