GPT యొక్క వ్యయ గోడ
గత వారం, GPT గురించిన చర్చ X పై ఒక కొత్త కేంద్ర బిందువును కలిగి ఉంది: సామర్థ్యం కాదు, వ్యయం.
ARC-AGI: తెలివితేటల సరిహద్దు
ప్రస్తుతం అత్యంత అధునాతన నమూనాలు ARC-AGI-2లో ఎలా పని చేస్తున్నాయి:
| మోడల్ | ARC-AGI-2 స్కోరు |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| మానవుడు | 100% |
54% నుండి 73% వరకు ఉన్న వ్యత్యాసం తెలివితేటల సమస్య కాదు, ఇది "రిఫైన్" - నమూనా తన సమాధానాలను పదే పదే తనిఖీ చేసుకునేలా చేయడం. దీనికి మరింత గణన అవసరం, అంటే ఎక్కువ ఖర్చు.
ఏజెంట్ యొక్క నిజమైన వ్యయం
24/7 ఎంటర్ప్రైజ్-గ్రేడ్ ఏజెంట్ (ప్రతిరోజూ 20 మిలియన్ల ఇన్పుట్ + 20 మిలియన్ల అవుట్పుట్ టోకెన్లు) యొక్క వార్షిక వ్యయం:
| మోడల్ | వార్షిక వ్యయం |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Standard కంటే GPT-5.2 Pro 12 రెట్లు ఎక్కువ ఖరీదైనది. ఇది ధరల వ్యూహం సమస్య కాదు, వ్యయ నిర్మాణం సమస్య.
"మీరు 100 AI ఏజెంట్లను అమలు చేయడానికి ముందు, గణితాన్ని అమలు చేయండి." — @waseem_s
కొత్త ట్యూరింగ్ పరీక్ష
ఒక సాధారణ ప్రశ్న కొత్త తెలివితేటల పరీక్షగా మారుతోంది:
"కారు వాష్ నా ఇంటి నుండి 40 మీటర్ల దూరంలో ఉంది. నేను కారు కడగాలి అనుకుంటున్నాను. నేను నడుచుకుంటూ వెళ్లాలా లేదా డ్రైవ్ చేయాలా?"
పాసైన మోడల్లు: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro విఫలమైన మోడల్లు: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
ఈ పరీక్ష ఎందుకు అర్ధవంతమైనది? ఎందుకంటే ఇది "సాధారణ జ్ఞానంతో ఆలోచించడం"ను పరీక్షిస్తుంది, "జ్ఞానాన్ని తిరిగి పొందడం" కాదు. 40 మీటర్లు నడవగలిగే దూరం. కారు మురికిగా ఉంటే కడగాలి. కానీ మీరు మురికి కారును 40 మీటర్లు నడిపి కడగరు - మీకు సాధారణ జ్ఞానం లేకపోతే తప్ప.
చరిత్ర పునరావృతం కాదు, కానీ ప్రాస ఉంటుంది
"నిపుణుల వ్యవస్థలు 1970లలో జన్మించాయి, 1980లలో వృద్ధి చెందాయి మరియు AI యొక్క భవిష్యత్తుగా విస్తృతంగా పరిగణించబడ్డాయి." — @ChombaBupe
GPT నమూనాలు 2018లో జన్మించాయి, 2020లలో వృద్ధి చెందాయి మరియు AI యొక్క భవిష్యత్తుగా విస్తృతంగా పరిగణించబడ్డాయి.
నిపుణుల వ్యవస్థల వైఫల్యానికి కారణం అవి తెలివైనవి కాకపోవడం కాదు, నిర్వహణ ఖర్చులు చాలా ఎక్కువగా ఉండటం, విస్తరణ చాలా పేలవంగా ఉండటం. నాలెడ్జ్ బేస్ను మానవీయంగా నిర్వహించాల్సిన అవసరం వచ్చినప్పుడు, పరిమాణం శత్రువు అవుతుంది.
GPT ఒక అద్దం లాంటి సమస్యను ఎదుర్కొంటోంది: నమూనా తెలివైనది, కానీ తార్కిక వ్యయం చాలా ఎక్కువ. ప్రతి అభ్యర్థనకు గణనీయమైన గణన అవసరమైనప్పుడు, పరిమాణం కూడా శత్రువు అవుతుంది.
తదుపరి ఏమిటి
ఈ వారం అనేక కొత్త నమూనాలు విడుదల కానున్నాయి: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
పోటీ "ఎవరు తెలివైనవారు" నుండి "ఎవరు చౌకైనవారు" వైపు మారుతోంది. ఇది వినియోగదారులకు శుభవార్త. OpenAIకి? తప్పనిసరిగా కాదు.





