GPT యొక్క వ్యయ గోడ

గత వారం, GPT గురించిన చర్చ X పై ఒక కొత్త కేంద్ర బిందువును కలిగి ఉంది: సామర్థ్యం కాదు, వ్యయం.

ARC-AGI: తెలివితేటల సరిహద్దు

ప్రస్తుతం అత్యంత అధునాతన నమూనాలు ARC-AGI-2లో ఎలా పని చేస్తున్నాయి:

మోడల్	ARC-AGI-2 స్కోరు
GPT-5.2 Pro	~54%
GPT-5.2 Refine	~73%
మానవుడు	100%

54% నుండి 73% వరకు ఉన్న వ్యత్యాసం తెలివితేటల సమస్య కాదు, ఇది "రిఫైన్" - నమూనా తన సమాధానాలను పదే పదే తనిఖీ చేసుకునేలా చేయడం. దీనికి మరింత గణన అవసరం, అంటే ఎక్కువ ఖర్చు.

ఏజెంట్ యొక్క నిజమైన వ్యయం

24/7 ఎంటర్‌ప్రైజ్-గ్రేడ్ ఏజెంట్ (ప్రతిరోజూ 20 మిలియన్ల ఇన్‌పుట్ + 20 మిలియన్ల అవుట్‌పుట్ టోకెన్‌లు) యొక్క వార్షిక వ్యయం:

మోడల్	వార్షిక వ్యయం
Palmyra X5	~$48K
GPT-5.2 Standard	~$57K
Gemini 2.5 Pro	~$82K
Claude Sonnet 4.5	~$131K
Claude Opus 4.6	~$219K
GPT-5.2 Pro	~$690K

GPT-5.2 Standard కంటే GPT-5.2 Pro 12 రెట్లు ఎక్కువ ఖరీదైనది. ఇది ధరల వ్యూహం సమస్య కాదు, వ్యయ నిర్మాణం సమస్య.

"మీరు 100 AI ఏజెంట్‌లను అమలు చేయడానికి ముందు, గణితాన్ని అమలు చేయండి." — @waseem_s

కొత్త ట్యూరింగ్ పరీక్ష

ఒక సాధారణ ప్రశ్న కొత్త తెలివితేటల పరీక్షగా మారుతోంది:

"కారు వాష్ నా ఇంటి నుండి 40 మీటర్ల దూరంలో ఉంది. నేను కారు కడగాలి అనుకుంటున్నాను. నేను నడుచుకుంటూ వెళ్లాలా లేదా డ్రైవ్ చేయాలా?"

పాసైన మోడల్‌లు: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro విఫలమైన మోడల్‌లు: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

ఈ పరీక్ష ఎందుకు అర్ధవంతమైనది? ఎందుకంటే ఇది "సాధారణ జ్ఞానంతో ఆలోచించడం"ను పరీక్షిస్తుంది, "జ్ఞానాన్ని తిరిగి పొందడం" కాదు. 40 మీటర్లు నడవగలిగే దూరం. కారు మురికిగా ఉంటే కడగాలి. కానీ మీరు మురికి కారును 40 మీటర్లు నడిపి కడగరు - మీకు సాధారణ జ్ఞానం లేకపోతే తప్ప.

చరిత్ర పునరావృతం కాదు, కానీ ప్రాస ఉంటుంది

"నిపుణుల వ్యవస్థలు 1970లలో జన్మించాయి, 1980లలో వృద్ధి చెందాయి మరియు AI యొక్క భవిష్యత్తుగా విస్తృతంగా పరిగణించబడ్డాయి." — @ChombaBupe

GPT నమూనాలు 2018లో జన్మించాయి, 2020లలో వృద్ధి చెందాయి మరియు AI యొక్క భవిష్యత్తుగా విస్తృతంగా పరిగణించబడ్డాయి.

నిపుణుల వ్యవస్థల వైఫల్యానికి కారణం అవి తెలివైనవి కాకపోవడం కాదు, నిర్వహణ ఖర్చులు చాలా ఎక్కువగా ఉండటం, విస్తరణ చాలా పేలవంగా ఉండటం. నాలెడ్జ్ బేస్‌ను మానవీయంగా నిర్వహించాల్సిన అవసరం వచ్చినప్పుడు, పరిమాణం శత్రువు అవుతుంది.

GPT ఒక అద్దం లాంటి సమస్యను ఎదుర్కొంటోంది: నమూనా తెలివైనది, కానీ తార్కిక వ్యయం చాలా ఎక్కువ. ప్రతి అభ్యర్థనకు గణనీయమైన గణన అవసరమైనప్పుడు, పరిమాణం కూడా శత్రువు అవుతుంది.

తదుపరి ఏమిటి

ఈ వారం అనేక కొత్త నమూనాలు విడుదల కానున్నాయి: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

పోటీ "ఎవరు తెలివైనవారు" నుండి "ఎవరు చౌకైనవారు" వైపు మారుతోంది. ఇది వినియోగదారులకు శుభవార్త. OpenAIకి? తప్పనిసరిగా కాదు.

GPT యొక్క వ్యయ గోడ

ARC-AGI: తెలివితేటల సరిహద్దు

ఏజెంట్ యొక్క నిజమైన వ్యయం

కొత్త ట్యూరింగ్ పరీక్ష

చరిత్ర పునరావృతం కాదు, కానీ ప్రాస ఉంటుంది

తదుపరి ఏమిటి

You Might Also Like

Claude Code Buddy మార్పు మార్గదర్శకం: ఎలా పొందాలి మెరుపు పురాణ స్థాయి పెంపుడు

Obsidian Defuddle విడుదల చేసింది, Obsidian Web Clipper ను కొత్త ఎత్తుకు తీసుకువెళ్ళింది

2026, ఇకపై మీరే 'ఆత్మ నియంత్రణ'ని బలవంతం చేయవద్దు! ఈ 8 చిన్న విషయాలను సరిగ్గా చేయండి, ఆరోగ్యం స్వయంగా వస్తుంది

అవి కష్టపడుతున్న తల్లులు, బరువు తగ్గలేక పోతున్న వారు, ఇక్కడే తప్పు చేస్తున్నారు

AI Browser 24小时稳定运行指南