GPT की लागत दीवार
पिछले एक सप्ताह में, X पर GPT के बारे में चर्चा का एक नया केंद्र बिंदु उभरा है: क्षमता नहीं, बल्कि लागत।
ARC-AGI: बुद्धिमत्ता की सीमा
वर्तमान में सबसे उन्नत मॉडल का ARC-AGI-2 पर प्रदर्शन:
| मॉडल | ARC-AGI-2 स्कोर |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| मानव | 100% |
54% से 73% के बीच का अंतर बुद्धिमत्ता का मुद्दा नहीं है, यह "परिष्करण" है - मॉडल को अपने उत्तरों की बार-बार जांच करने देना। इसके लिए अधिक गणना की आवश्यकता होती है, जिसका अर्थ है अधिक लागत।
एजेंट की वास्तविक लागत
24/7 एंटरप्राइज़-ग्रेड एजेंट (प्रति दिन 20 मिलियन इनपुट + 20 मिलियन आउटपुट टोकन) की वार्षिक लागत:
| मॉडल | वार्षिक लागत |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro, GPT-5.2 Standard से 12 गुना अधिक महंगा है। यह मूल्य निर्धारण रणनीति का मुद्दा नहीं है, यह लागत संरचना का मुद्दा है।
"Before you deploy 100 AI agents, run the math." — @waseem_s
नया ट्यूरिंग टेस्ट
एक सरल प्रश्न एक नया बुद्धिमत्ता परीक्षण बनता जा रहा है:
"कार धोने की दुकान मेरे घर से 40 मीटर दूर है। मैं अपनी कार धोना चाहता हूँ। मुझे पैदल जाना चाहिए या गाड़ी से?"
पास होने वाले मॉडल: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro विफल होने वाले मॉडल: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
यह परीक्षण क्यों मायने रखता है? क्योंकि यह "सामान्य ज्ञान तर्क" का परीक्षण करता है न कि "ज्ञान पुनर्प्राप्ति" का। 40 मीटर पैदल चलने की दूरी है। कार गंदी है और उसे धोने की जरूरत है। लेकिन आप गंदी कार को धोने के लिए 40 मीटर नहीं चलाएंगे - जब तक कि आप सामान्य ज्ञान नहीं समझते।
इतिहास दोहराता नहीं है, लेकिन लयबद्ध होता है
"विशेषज्ञ प्रणालियाँ 1970 के दशक में पैदा हुईं, 1980 के दशक में फली-फूलीं, और व्यापक रूप से AI का भविष्य मानी गईं।" — @ChombaBupe
GPT मॉडल 2018 में पैदा हुए, 2020 के दशक में फले-फूले, और व्यापक रूप से AI का भविष्य माने जाते हैं।
विशेषज्ञ प्रणालियों की विफलता इसलिए नहीं हुई क्योंकि वे पर्याप्त बुद्धिमान नहीं थे, बल्कि इसलिए हुई क्योंकि रखरखाव की लागत बहुत अधिक थी और विस्तारशीलता बहुत खराब थी। जब ज्ञानकोश को मैन्युअल रखरखाव की आवश्यकता होती है, तो पैमाना दुश्मन होता है।
GPT को एक दर्पण समस्या का सामना करना पड़ रहा है: मॉडल बुद्धिमान है, लेकिन तर्क की लागत बहुत अधिक है। जब प्रत्येक अनुरोध के लिए बड़ी मात्रा में गणना की आवश्यकता होती है, तो पैमाना भी दुश्मन होता है।
आगे क्या
इस सप्ताह कई नए मॉडल जारी होने की उम्मीद है: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5।
प्रतियोगिता "कौन अधिक बुद्धिमान है" से "कौन सस्ता है" की ओर बढ़ रही है। यह उपयोगकर्ताओं के लिए अच्छी खबर है। OpenAI के लिए? शायद नहीं।





