GPT kainų siena
Pastarąją savaitę X platformoje diskusijos apie GPT pasislinko į naują dėmesio centrą: ne gebėjimus, o kainą.
ARC-AGI: Intelekto riba
Šiuo metu pažangiausių modelių rezultatai ARC-AGI-2 teste:
| Modelis | ARC-AGI-2 rezultatas |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Žmogus | 100% |
Skirtumas tarp 54% ir 73% nėra intelekto klausimas, tai yra „tobulinimas“ – modelio skatinimas pakartotinai tikrinti savo atsakymus. Tam reikia daugiau skaičiavimų, o tai reiškia didesnes išlaidas.
Tikroji Agentų kaina
24/7 įmonės lygio Agentų (20 milijonų įvesties + 20 milijonų išvesties tokenų per dieną) metinės išlaidos:
| Modelis | Metinės išlaidos |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro yra 12 kartų brangesnis nei GPT-5.2 Standard. Tai nėra kainodaros strategijos klausimas, tai yra išlaidų struktūros klausimas.
"Prieš diegdami 100 AI agentų, atlikite skaičiavimus." — @waseem_s
Naujas Turingo testas
Paprastas klausimas tampa nauju intelekto testu:
"Automobilių plovykla yra už 40 metrų nuo mano namų. Noriu nusiplauti automobilį. Ar turėčiau eiti pėsčiomis, ar važiuoti automobiliu?"
Išlaikė modeliai: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Neišlaikė modeliai: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Kodėl šis testas yra prasmingas? Nes jis testuoja „sveiką protą“, o ne „žinių paiešką“. 40 metrų yra atstumas, kurį galima nueiti pėsčiomis. Automobilis yra nešvarus ir jį reikia nuplauti. Bet jūs nevažiuosite nešvariu automobiliu 40 metrų, kad jį nuplautumėte – nebent neturite sveiko proto.
Istorija nesikartoja, bet rimuojasi
"Ekspertų sistemos gimė 1970-aisiais, klestėjo 1980-aisiais ir buvo plačiai laikomos AI ateitimi." — @ChombaBupe
GPT modeliai gimė 2018 m., klestėjo 2020-aisiais ir yra plačiai laikomi AI ateitimi.
Ekspertų sistemų nesėkmė įvyko ne dėl to, kad jos buvo nepakankamai protingos, o dėl to, kad jų priežiūra buvo per brangi ir nepakankamai plečiama. Kai žinių bazę reikia prižiūrėti rankiniu būdu, mastas yra priešas.
GPT susiduria su veidrodine problema: modeliai yra protingi, bet samprotavimo kaina yra per didelė. Kai kiekvienam užklausimui reikia daug skaičiavimų, mastas taip pat yra priešas.
Kitas žingsnis
Šią savaitę tikimasi išleisti kelis naujus modelius: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Konkurencija pereina nuo „kas protingesnis“ prie „kas pigesnis“. Tai gera žinia vartotojams. O OpenAI? Nebūtinai.





