GPT-ийн өртгийн хана

Өнгөрсөн долоо хоногт X дээр GPT-ийн талаарх хэлэлцүүлэгт шинэ анхаарал хандуулах болсон: чадвар биш, харин өртөг.

ARC-AGI: Оюун ухааны хил хязгаар

Хамгийн сүүлийн үеийн загварууд ARC-AGI-2 дээр хэрхэн ажиллаж байгаа нь:

Загвар	ARC-AGI-2 оноо
GPT-5.2 Pro	~54%
GPT-5.2 Refine	~73%
Хүн	100%

54%-аас 73%-ийн хоорондох зөрүү нь оюун ухааны асуудал биш, харин "сайжруулалт" юм - загварыг өөрийн хариултаа дахин дахин шалгах боломжийг олгох. Энэ нь илүү тооцоолол шаарддаг бөгөөд энэ нь өндөр өртөгтэй гэсэн үг юм.

Agent-ийн бодит өртөг

24/7 аж ахуйн нэгжийн Agent (өдөрт 20 сая оролт + 20 сая гаралтын токен)-ийн жилийн өртөг:

Загвар	Жилийн өртөг
Palmyra X5	~$48K
GPT-5.2 Standard	~$57K
Gemini 2.5 Pro	~$82K
Claude Sonnet 4.5	~$131K
Claude Opus 4.6	~$219K
GPT-5.2 Pro	~$690K

GPT-5.2 Pro нь GPT-5.2 Standard-аас 12 дахин үнэтэй. Энэ нь үнийн бодлогын асуудал биш, харин өртгийн бүтцийн асуудал юм.

"100 AI agent-ийг байрлуулахаасаа өмнө тооцооллоо хий." — @waseem_s

Тюрингийн шинэ тест

Энгийн асуулт нь оюун ухааны шинэ тест болж байна:

"Машины угаалга миний гэрээс 40 метрийн зайд байдаг. Би машинаа угаалгахыг хүсч байна. Би алхах уу, эсвэл машинаараа явах уу?"

Амжилттай болсон загварууд: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Амжилтгүй болсон загварууд: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

Яагаад энэ тест утга учиртай вэ? Учир нь энэ нь "мэдлэгийн хайлт" биш, харин "нийтлэг үндэслэл"-ийг шалгадаг. 40 метр бол алхах зай. Машин бохир бол угаах хэрэгтэй. Гэхдээ та бохир машинаа 40 метр жолоодож угаалгахгүй - хэрэв та нийтлэг үндэслэлийг ойлгохгүй бол.

Түүх давтагдахгүй, гэхдээ хэмнэлтэй байх болно

"Мэргэжилтний системүүд 1970-аад онд төрсөн, 1980-аад онд цэцэглэн хөгжсөн бөгөөд AI-ийн ирээдүй гэж өргөнөөр хүлээн зөвшөөрөгдсөн." — @ChombaBupe

GPT загварууд 2018 онд төрсөн, 2020-иод онд цэцэглэн хөгжиж байгаа бөгөөд AI-ийн ирээдүй гэж өргөнөөр хүлээн зөвшөөрөгдсөн.

Мэргэжилтний системийн бүтэлгүйтэл нь хангалттай ухаантай биш байсандаа биш, харин засвар үйлчилгээний өртөг хэт өндөр, өргөжих чадвар муу байсантай холбоотой. Мэдлэгийн санг гараар засварлах шаардлагатай бол хэмжээ нь дайсан болдог.

GPT нь толин тусгал асуудалтай тулгарч байна: загвар нь ухаантай, гэхдээ үндэслэлийн өртөг хэт өндөр. Хэрэв хүсэлт бүр их хэмжээний тооцоолол шаарддаг бол хэмжээ нь мөн адил дайсан болдог.

Дараагийн алхам

Энэ долоо хоногт хэд хэдэн шинэ загвар гарах төлөвтэй байна: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

Өрсөлдөөн нь "хэн илүү ухаантай вэ" гэдгээс "хэн хямд вэ" гэдэг рүү шилжиж байна. Энэ нь хэрэглэгчдэд сайн мэдээ. OpenAI-д уу? Заавал биш.

GPT-ийн өртгийн хана

ARC-AGI: Оюун ухааны хил хязгаар

Agent-ийн бодит өртөг

Тюрингийн шинэ тест

Түүх давтагдахгүй, гэхдээ хэмнэлтэй байх болно

Дараагийн алхам

You Might Also Like

Claude Code Buddy засварын гарын авлага: Гялалзсан домогт амьтан хэрхэн авах вэ

Obsidian Defuddle-г танилцууллаа, Obsidian Web Clipper-ийг шинэ түвшинд гаргалаа

OpenAI гэнэт "Гурван нэг"-ийг зарлалаа: Браузер + Программчлал + ChatGPT нэгдэж, дотооддоо өнгөрсөн жил буруу замаар явсан гэдгээ хүлээн зөвшөөрчээ

2026, өөрийгөө "засаглах" гэж бүү шах! Энэ 8 жижиг зүйлийг сайн хий, эрүүл мэнд өөрөө ирнэ

Тэрээр жингээ хасахад хичээж байгаа ээжүүд, яагаад чадахгүй байна вэ?

AI Браузер 24 цагийн тогтвортой ажиллах гарын авлага