GPT ची खर्चिक भिंत
गेल्या आठवड्यात, X वर GPT च्या चर्चेचा एक नवीन केंद्रबिंदू उदयास आला: क्षमता नाही, तर खर्च.
ARC-AGI: बुद्धिमत्तेची सीमा
ARC-AGI-2 वर सध्याच्या आघाडीच्या मॉडेलची कामगिरी:
| मॉडेल | ARC-AGI-2 स्कोअर |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| मनुष्य | 100% |
54% ते 73% मधील फरक बुद्धिमत्तेचा प्रश्न नाही, तर तो 'रिफाइन' करण्याचा आहे - मॉडेलला स्वतःच्या उत्तरांची वारंवार तपासणी करण्यास सांगणे. यासाठी जास्त गणना (calculation) आवश्यक आहे, म्हणजेच जास्त खर्च.
Agent चा खरा खर्च
24/7 एंटरप्राइज-ग्रेड Agent (दररोज 20 दशलक्ष इनपुट + 20 दशलक्ष आउटपुट टोकन) चा वार्षिक खर्च:
| मॉडेल | वार्षिक खर्च |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro, GPT-5.2 Standard पेक्षा 12 पट जास्त महाग आहे. हा किंमत धोरणाचा प्रश्न नाही, तर खर्चाच्या संरचनेचा प्रश्न आहे.
"100 AI एजंट तैनात करण्यापूर्वी, गणिताचा विचार करा." — @waseem_s
नवीन ट्युरिंग चाचणी
एक साधा प्रश्न आता बुद्धिमत्तेची नवीन चाचणी बनत आहे:
"कार वॉश माझ्या घरापासून 40 मीटर अंतरावर आहे. मला माझी कार धुवायची आहे. मी चालत जावे की गाडी चालवून जावे?"
उत्तीर्ण झालेले मॉडेल: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro अनुत्तीर्ण झालेले मॉडेल: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
ही चाचणी का अर्थपूर्ण आहे? कारण ती 'सामान्य ज्ञान' तपासते, 'ज्ञान पुनर्प्राप्ती' नाही. 40 मीटर हे चालण्याचे अंतर आहे. कार घाण झाली आहे आणि ती धुवायची आहे. पण तुम्ही घाण झालेली कार 40 मीटर चालवून धुवायला जाणार नाही - जोपर्यंत तुम्हाला सामान्य ज्ञान नसेल.
इतिहास स्वतःची पुनरावृत्ती करत नाही, पण तो लयबद्ध असतो
"तज्ञ प्रणाली 1970 च्या दशकात उदयास आली, 1980 च्या दशकात विकसित झाली आणि मोठ्या प्रमाणावर AI चे भविष्य मानले गेले." — @ChombaBupe
GPT मॉडेल 2018 मध्ये उदयास आले, 2020 च्या दशकात विकसित झाले आणि मोठ्या प्रमाणावर AI चे भविष्य मानले जात आहे.
तज्ञ प्रणाली अयशस्वी होण्याचे कारण ती पुरेशी हुशार नव्हती हे नाही, तर देखभालीचा खर्च खूप जास्त होता आणि विस्तारण्याची क्षमता खूपच कमी होती. जेव्हा ज्ञानकोषाला (knowledge base) मानवी देखरेखीची आवश्यकता असते, तेव्हा आकार हा शत्रू असतो.
GPT ला अशाच समस्येचा सामना करावा लागत आहे: मॉडेल हुशार आहे, पण युक्तिवादाचा खर्च खूप जास्त आहे. जेव्हा प्रत्येक विनंतीसाठी मोठ्या प्रमाणात गणनेची आवश्यकता असते, तेव्हा आकार तितकाच शत्रू असतो.
पुढील पाऊल
या आठवड्यात अनेक नवीन मॉडेल रिलीज होण्याची अपेक्षा आहे: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
स्पर्धा 'कोण अधिक हुशार आहे' यावरून 'कोण स्वस्त आहे' याकडे वळत आहे. हे वापरकर्त्यांसाठी चांगली बातमी आहे. OpenAI साठी? नक्कीच नाही.





