GPT-യുടെ ചിലവ് മതിലുകൾ
കഴിഞ്ഞ ഒരാഴ്ചയായി, GPTയെക്കുറിച്ചുള്ള ചർച്ചകൾ X-ൽ ഒരു പുതിയ ശ്രദ്ധാകേന്ദ്രത്തിലേക്ക് നീങ്ങി: അതിന്റെ കഴിവല്ല, ചിലവാണ് വിഷയം.
ARC-AGI: ബുദ്ധിയുടെ അതിരുകൾ
നിലവിൽ ഏറ്റവും മികച്ച മോഡലുകൾ ARC-AGI-2-ൽ എങ്ങനെ പ്രവർത്തിക്കുന്നു:
| മോഡൽ | ARC-AGI-2 സ്കോർ |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| മനുഷ്യൻ | 100% |
54% നും 73% നും ഇടയിലുള്ള വ്യത്യാസം ബുദ്ധിയുടെ പ്രശ്നമല്ല, മറിച്ച് 'പരിഷ്കരണമാണ്' – മോഡലിനെ അതിന്റെ ഉത്തരങ്ങൾ വീണ്ടും വീണ്ടും പരിശോധിക്കാൻ അനുവദിക്കുക. ഇതിന് കൂടുതൽ കമ്പ്യൂട്ടിംഗ് ആവശ്യമാണ്, അതായത് ഉയർന്ന ചിലവ്.
ഏജന്റിന്റെ യഥാർത്ഥ ചിലവ്
24/7 എന്റർപ്രൈസ്-ഗ്രേഡ് ഏജന്റിന്റെ വാർഷിക ചിലവ് (പ്രതിദിനം 20 ദശലക്ഷം ഇൻപുട്ട് + 20 ദശലക്ഷം ഔട്ട്പുട്ട് ടോക്കണുകൾ):
| മോഡൽ | വാർഷിക ചിലവ് |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Standard-നെക്കാൾ 12 മടങ്ങ് കൂടുതലാണ് GPT-5.2 Pro-ക്ക്. ഇതൊരു വിലനിർണ്ണയ തന്ത്രത്തിന്റെ പ്രശ്നമല്ല, മറിച്ച് ചിലവ് ഘടനയുടെ പ്രശ്നമാണ്.
"നിങ്ങൾ 100 AI ഏജന്റുമാരെ വിന്യസിക്കുന്നതിന് മുമ്പ്, കണക്കുകൾ പ്രവർത്തിപ്പിക്കുക." — @waseem_s
പുതിയ ട്യൂറിംഗ് ടെസ്റ്റ്
ഒരു ലളിതമായ ചോദ്യം പുതിയ ബുദ്ധി പരീക്ഷയായി മാറുകയാണ്:
"കാർ കഴുകുന്ന കട എന്റെ വീട്ടിൽ നിന്ന് 40 മീറ്റർ അകലെയാണ്. എനിക്ക് കാർ കഴുകണം. ഞാൻ നടന്നുപോകണോ അതോ കാറോടിച്ചുപോകണോ?"
പാസായ മോഡലുകൾ: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro പരാജയപ്പെട്ട മോഡലുകൾ: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
എന്തുകൊണ്ടാണ് ഈ പരീക്ഷണം പ്രധാനമാകുന്നത്? കാരണം ഇത് 'സാമാന്യബുദ്ധിപരമായ ന്യായവാദം' പരീക്ഷിക്കുന്നു, അല്ലാതെ 'വിജ്ഞാന വീണ്ടെടുക്കൽ' അല്ല. 40 മീറ്റർ എന്നത് നടക്കാനുള്ള ദൂരമാണ്. കാർ വൃത്തികെട്ടാൽ കഴുകണം. എന്നാൽ വൃത്തികെട്ട കാറുമായി 40 മീറ്റർ ദൂരം കഴുകാനായി പോകില്ല - നിങ്ങൾക്ക് സാമാന്യബുദ്ധി ഇല്ലെങ്കിൽ മാത്രം.
ചരിത്രം ആവർത്തിക്കില്ല, പക്ഷേ താളം കണ്ടെത്താനാകും
"വിദഗ്ദ്ധ സംവിധാനങ്ങൾ 1970-കളിൽ ജനിച്ചു, 1980-കളിൽ തഴച്ചുവളർന്നു, AI-യുടെ ഭാവിയായി വ്യാപകമായി കണക്കാക്കപ്പെട്ടു." — @ChombaBupe
GPT മോഡലുകൾ 2018-ൽ ജനിച്ചു, 2020-കളിൽ തഴച്ചുവളർന്നു, AI-യുടെ ഭാവിയായി വ്യാപകമായി കണക്കാക്കപ്പെടുന്നു.
വിദഗ്ദ്ധ സംവിധാനങ്ങളുടെ പരാജയം അവയ്ക്ക് വേണ്ടത്ര ബുദ്ധിയില്ലാത്തതുകൊണ്ടല്ല, മറിച്ച് പരിപാലന ചിലവ് വളരെ ഉയർന്നതും വിപുലീകരിക്കാൻ കഴിയാത്തതുമായിരുന്നു. വിജ്ഞാന അടിത്തറകൾക്ക് മാനുഷിക പരിപാലനം ആവശ്യമായി വരുമ്പോൾ, വലുപ്പം ഒരു ശത്രുവാണ്.
GPT ഒരു പ്രതിബിംബ പ്രശ്നമാണ് നേരിടുന്നത്: മോഡലുകൾക്ക് നല്ല ബുദ്ധിയുണ്ട്, പക്ഷേ ന്യായവാദത്തിനുള്ള ചിലവ് വളരെ കൂടുതലാണ്. ഓരോ അഭ്യർത്ഥനയ്ക്കും ധാരാളം കമ്പ്യൂട്ടിംഗ് ആവശ്യമായി വരുമ്പോൾ, വലുപ്പം ഒരുപോലെ ശത്രുവാണ്.
അടുത്തത്
ഈ ആഴ്ചയിൽ നിരവധി പുതിയ മോഡലുകൾ പുറത്തിറങ്ങുമെന്ന് പ്രതീക്ഷിക്കുന്നു: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
മത്സരം 'ആരാണ് കൂടുതൽ മിടുക്കൻ' എന്നതിൽ നിന്ന് 'ആരാണ് കൂടുതൽ വിലകുറഞ്ഞവൻ' എന്നതിലേക്ക് മാറുകയാണ്. ഇത് ഉപയോക്താക്കൾക്ക് നല്ല വാർത്തയാണ്. OpenAI-ക്ക്? ഉറപ്പില്ല.





