GPT-யின் செலவுச் சுவர்
கடந்த வாரம், GPT பற்றிய விவாதங்கள் X-இல் ஒரு புதிய மையத்தை அடைந்தன: திறன் அல்ல, செலவு.
ARC-AGI: அறிவின் எல்லை
தற்போது மிகவும் மேம்பட்ட மாதிரிகள் ARC-AGI-2 இல் எவ்வாறு செயல்படுகின்றன:
| மாதிரி | ARC-AGI-2 மதிப்பெண் |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| மனிதன் | 100% |
54% மற்றும் 73% இடையேயான வேறுபாடு அறிவின் பிரச்சனை அல்ல, அது "செம்மைப்படுத்துதல்" - மாதிரி தனது பதில்களை மீண்டும் மீண்டும் சரிபார்க்க அனுமதிப்பது. இதற்கு அதிக கணக்கீடு தேவை, அதாவது அதிக செலவு.
ஏஜெண்டின் உண்மையான செலவு
24/7 நிறுவன அளவிலான ஏஜெண்டின் ஆண்டுச் செலவு (ஒரு நாளைக்கு 20 மில்லியன் உள்ளீடு + 20 மில்லியன் வெளியீடு டோக்கன்கள்):
| மாதிரி | ஆண்டுச் செலவு |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro, GPT-5.2 Standard ஐ விட 12 மடங்கு அதிகம் விலை கொண்டது. இது விலை நிர்ணய உத்தி பிரச்சனை அல்ல, இது செலவு கட்டமைப்பு பிரச்சனை.
"100 AI ஏஜெண்டுகளைப் பயன்படுத்துவதற்கு முன்பு, கணக்கைப் பாருங்கள்." — @waseem_s
புதிய ட்யூரிங் சோதனை
ஒரு எளிய கேள்வி புதிய அறிவுத் தேர்வாக மாறி வருகிறது:
"கார் கழுவும் கடை என் வீட்டிலிருந்து 40 மீட்டர் தூரத்தில் உள்ளது. நான் காரை கழுவ வேண்டும். நான் நடந்து செல்ல வேண்டுமா அல்லது காரில் செல்ல வேண்டுமா?"
வெற்றி பெற்ற மாதிரிகள்: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro தோல்வியடைந்த மாதிரிகள்: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
இந்த சோதனை ஏன் முக்கியமானது? ஏனெனில் இது "பொது அறிவு பகுத்தறிவை" சோதிக்கிறது, "அறிவு மீட்டெடுப்பை" அல்ல. 40 மீட்டர் என்பது நடந்து செல்லும் தூரம். கார் அழுக்காக இருந்தால் கழுவ வேண்டும். ஆனால் நீங்கள் அழுக்கான காரை 40 மீட்டர் தூரம் கழுவ எடுத்துச் செல்ல மாட்டீர்கள் - உங்களுக்கு பொது அறிவு இல்லாவிட்டால்.
வரலாறு மீண்டும் வராது, ஆனால் அது ஒரு சந்தத்தை உருவாக்கும்
"நிபுணர் அமைப்புகள் 1970 களில் பிறந்தன, 1980 களில் செழித்தன, மேலும் AI இன் எதிர்காலமாக பரவலாகக் கருதப்பட்டன." — @ChombaBupe
GPT மாதிரிகள் 2018 இல் பிறந்தன, 2020 களில் செழித்து வருகின்றன, மேலும் AI இன் எதிர்காலமாக பரவலாகக் கருதப்படுகின்றன.
நிபுணர் அமைப்புகளின் தோல்வி அவை போதுமான அறிவில்லாததால் அல்ல, ஆனால் பராமரிப்பு செலவு மிக அதிகமாக இருந்ததாலும், விரிவாக்கத்தன்மை மோசமாக இருந்ததாலும் தான். அறிவுத் தளம் மனிதனால் பராமரிக்கப்பட வேண்டியிருக்கும் போது, அளவு என்பது எதிரி.
GPT ஒரு கண்ணாடி பிம்ப பிரச்சனையை எதிர்கொள்கிறது: மாதிரி புத்திசாலித்தனமானது, ஆனால் பகுத்தறிவு செலவு மிக அதிகம். ஒவ்வொரு கோரிக்கையும் அதிக கணக்கீடு தேவைப்படும்போது, அளவும் எதிரிதான்.
அடுத்தது
இந்த வாரம் பல புதிய மாதிரிகள் வெளியிடப்படும் என்று எதிர்பார்க்கப்படுகிறது: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
போட்டி "யார் புத்திசாலி" என்பதிலிருந்து "யார் மலிவானவர்" என்பதற்கு மாறுகிறது. இது பயனர்களுக்கு நல்ல செய்தி. OpenAIக்கு? உறுதியாகச் சொல்ல முடியாது.





