GPT ની કિંમતની દીવાલ
ગયા અઠવાડિયે, X પર GPT વિશેની ચર્ચા એક નવા કેન્દ્ર પર આવી: ક્ષમતા નહીં, પરંતુ કિંમત.
ARC-AGI: બુદ્ધિની સીમા
હાલમાં સૌથી અદ્યતન મોડેલો ARC-AGI-2 પર કેવું પ્રદર્શન કરે છે:
| મોડેલ | ARC-AGI-2 સ્કોર |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| માનવ | 100% |
54% થી 73% વચ્ચેનો તફાવત બુદ્ધિનો પ્રશ્ન નથી, તે "રિફાઇનમેન્ટ" છે - મોડેલને તેના પોતાના જવાબો વારંવાર તપાસવા દેવા. આ માટે વધુ ગણતરીની જરૂર છે, જેનો અર્થ થાય છે વધુ ખર્ચ.
એજન્ટની વાસ્તવિક કિંમત
24/7 એન્ટરપ્રાઇઝ-ગ્રેડ એજન્ટ (દરરોજ 20 મિલિયન ઇનપુટ + 20 મિલિયન આઉટપુટ ટોકન્સ) ની વાર્ષિક કિંમત:
| મોડેલ | વાર્ષિક ખર્ચ |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro એ GPT-5.2 Standard કરતા 12 ગણું મોંઘું છે. આ પ્રાઇસિંગ વ્યૂહરચનાનો પ્રશ્ન નથી, તે ખર્ચ માળખાનો પ્રશ્ન છે.
"100 AI એજન્ટોને ડિપ્લોય કરતા પહેલા, ગણતરી કરો." — @waseem_s
નવી ટ્યુરિંગ ટેસ્ટ
એક સરળ પ્રશ્ન નવી બુદ્ધિ પરીક્ષણ બની રહ્યો છે:
"કાર ધોવાનો સ્ટોર મારા ઘરથી 40 મીટર દૂર છે. હું મારી કાર ધોવા માંગુ છું. મારે ચાલવું જોઈએ કે ગાડી ચલાવવી જોઈએ?"
પાસ થયેલ મોડેલો: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro નિષ્ફળ મોડેલો: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
આ પરીક્ષણ શા માટે અર્થપૂર્ણ છે? કારણ કે તે "સામાન્ય સમજણ તર્ક" નું પરીક્ષણ કરે છે, "જ્ઞાન પુનઃપ્રાપ્તિ" નું નહીં. 40 મીટર ચાલવાનું અંતર છે. કાર ગંદી છે અને તેને ધોવાની જરૂર છે. પરંતુ તમે ગંદી કારને ધોવા માટે 40 મીટર સુધી ચલાવશો નહીં - સિવાય કે તમને સામાન્ય સમજણ ન હોય.
ઇતિહાસનું પુનરાવર્તન થશે નહીં, પરંતુ તે જોડકણું કરશે
"નિષ્ણાત સિસ્ટમો 1970 ના દાયકામાં જન્મી, 1980 ના દાયકામાં ખીલી, અને વ્યાપકપણે AI નું ભવિષ્ય માનવામાં આવતું હતું." — @ChombaBupe
GPT મોડેલો 2018 માં જન્મેલા, 2020 ના દાયકામાં ખીલ્યા અને વ્યાપકપણે AI નું ભવિષ્ય માનવામાં આવે છે.
નિષ્ણાત સિસ્ટમોની નિષ્ફળતા એટલા માટે નહોતી કે તે પૂરતી હોશિયાર નહોતી, પરંતુ એટલા માટે કે જાળવણી ખર્ચ ખૂબ ઊંચો હતો અને વિસ્તરણક્ષમતા ખૂબ નબળી હતી. જ્યારે જ્ઞાન આધારને મેન્યુઅલી જાળવવાની જરૂર હોય, ત્યારે સ્કેલ એ દુશ્મન છે.
GPT એક મિરર સમસ્યાનો સામનો કરી રહ્યું છે: મોડેલ હોશિયાર છે, પરંતુ તર્ક ખર્ચ ખૂબ ઊંચો છે. જ્યારે દરેક વિનંતી માટે મોટી માત્રામાં ગણતરીની જરૂર હોય, ત્યારે સ્કેલ પણ દુશ્મન છે.
આગળ શું
આ અઠવાડિયે ઘણા નવા મોડેલો બહાર પાડવાની ધારણા છે: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
સ્પર્ધા "કોણ વધુ હોશિયાર છે" થી "કોણ સસ્તું છે" તરફ આગળ વધી રહી છે. આ વપરાશકર્તાઓ માટે સારા સમાચાર છે. OpenAI માટે? કદાચ નહીં.





