GPT-ийн өртгийн хана
Өнгөрсөн долоо хоногт X дээр GPT-ийн талаарх хэлэлцүүлэгт шинэ анхаарал хандуулах болсон: чадвар биш, харин өртөг.
ARC-AGI: Оюун ухааны хил хязгаар
Хамгийн сүүлийн үеийн загварууд ARC-AGI-2 дээр хэрхэн ажиллаж байгаа нь:
| Загвар | ARC-AGI-2 оноо |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Хүн | 100% |
54%-аас 73%-ийн хоорондох зөрүү нь оюун ухааны асуудал биш, харин "сайжруулалт" юм - загварыг өөрийн хариултаа дахин дахин шалгах боломжийг олгох. Энэ нь илүү тооцоолол шаарддаг бөгөөд энэ нь өндөр өртөгтэй гэсэн үг юм.
Agent-ийн бодит өртөг
24/7 аж ахуйн нэгжийн Agent (өдөрт 20 сая оролт + 20 сая гаралтын токен)-ийн жилийн өртөг:
| Загвар | Жилийн өртөг |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro нь GPT-5.2 Standard-аас 12 дахин үнэтэй. Энэ нь үнийн бодлогын асуудал биш, харин өртгийн бүтцийн асуудал юм.
"100 AI agent-ийг байрлуулахаасаа өмнө тооцооллоо хий." — @waseem_s
Тюрингийн шинэ тест
Энгийн асуулт нь оюун ухааны шинэ тест болж байна:
"Машины угаалга миний гэрээс 40 метрийн зайд байдаг. Би машинаа угаалгахыг хүсч байна. Би алхах уу, эсвэл машинаараа явах уу?"
Амжилттай болсон загварууд: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Амжилтгүй болсон загварууд: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Яагаад энэ тест утга учиртай вэ? Учир нь энэ нь "мэдлэгийн хайлт" биш, харин "нийтлэг үндэслэл"-ийг шалгадаг. 40 метр бол алхах зай. Машин бохир бол угаах хэрэгтэй. Гэхдээ та бохир машинаа 40 метр жолоодож угаалгахгүй - хэрэв та нийтлэг үндэслэлийг ойлгохгүй бол.
Түүх давтагдахгүй, гэхдээ хэмнэлтэй байх болно
"Мэргэжилтний системүүд 1970-аад онд төрсөн, 1980-аад онд цэцэглэн хөгжсөн бөгөөд AI-ийн ирээдүй гэж өргөнөөр хүлээн зөвшөөрөгдсөн." — @ChombaBupe
GPT загварууд 2018 онд төрсөн, 2020-иод онд цэцэглэн хөгжиж байгаа бөгөөд AI-ийн ирээдүй гэж өргөнөөр хүлээн зөвшөөрөгдсөн.
Мэргэжилтний системийн бүтэлгүйтэл нь хангалттай ухаантай биш байсандаа биш, харин засвар үйлчилгээний өртөг хэт өндөр, өргөжих чадвар муу байсантай холбоотой. Мэдлэгийн санг гараар засварлах шаардлагатай бол хэмжээ нь дайсан болдог.
GPT нь толин тусгал асуудалтай тулгарч байна: загвар нь ухаантай, гэхдээ үндэслэлийн өртөг хэт өндөр. Хэрэв хүсэлт бүр их хэмжээний тооцоолол шаарддаг бол хэмжээ нь мөн адил дайсан болдог.
Дараагийн алхам
Энэ долоо хоногт хэд хэдэн шинэ загвар гарах төлөвтэй байна: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Өрсөлдөөн нь "хэн илүү ухаантай вэ" гэдгээс "хэн хямд вэ" гэдэг рүү шилжиж байна. Энэ нь хэрэглэгчдэд сайн мэдээ. OpenAI-д уу? Заавал биш.





