GPT:n kustannusmuuri
Kuluneen viikon aikana X:ssä GPT:stä käyty keskustelu on saanut uuden painopisteen: ei kyvyt, vaan kustannukset.
ARC-AGI: Älykkyyden rajat
Edistyksellisimpien mallien suorituskyky ARC-AGI-2:ssa:
| Malli | ARC-AGI-2 pisteet |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Ihminen | 100% |
54 %:n ja 73 %:n välinen ero ei ole älykkyyskysymys, vaan "hienosäätö" – mallin toistuva vastausten tarkistaminen. Tämä vaatii enemmän laskentatehoa, mikä tarkoittaa korkeampia kustannuksia.
Agenttien todelliset kustannukset
24/7 yritystason agentin (20 miljoonaa syöte- + 20 miljoonaa tulostustokenia päivässä) vuosikustannukset:
| Malli | Vuosikustannukset |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro on 12 kertaa kalliimpi kuin GPT-5.2 Standard. Tämä ei ole hinnoittelustrategiakysymys, vaan kustannusrakennekysymys.
"Ennen kuin otat käyttöön 100 tekoälyagenttia, laske." — @waseem_s
Uusi Turingin testi
Yksinkertaisesta kysymyksestä on tulossa uusi älykkyystesti:
"Autopesula on 40 metrin päässä kotoani. Haluan pestä autoni. Pitäisikö minun kävellä vai ajaa sinne?"
Läpäisseet mallit: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Hylätyt mallit: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Miksi tämä testi on merkityksellinen? Koska se testaa "terveen järjen päättelyä" eikä "tiedonhakua". 40 metriä on kävelymatka. Auto on likainen ja se pitää pestä. Mutta et aja likaista autoa 40 metriä pestäväksi – ellet ole vailla tervettä järkeä.
Historia ei toistu, mutta se riimittelee
"Asiantuntijajärjestelmät syntyivät 1970-luvulla, kukoistivat 1980-luvulla ja niitä pidettiin laajalti tekoälyn tulevaisuutena." — @ChombaBupe
GPT-mallit syntyivät vuonna 2018, kukoistivat 2020-luvulla ja niitä pidetään laajalti tekoälyn tulevaisuutena.
Asiantuntijajärjestelmien epäonnistuminen ei johtunut siitä, etteivät ne olleet tarpeeksi älykkäitä, vaan siitä, että niiden ylläpitokustannukset olivat liian korkeat ja skaalautuvuus liian huono. Kun tietokantaa on ylläpidettävä manuaalisesti, koko on vihollinen.
GPT:llä on edessään peilikuvaongelma: mallit ovat älykkäitä, mutta päättely on liian kallista. Kun jokainen pyyntö vaatii paljon laskentatehoa, koko on jälleen vihollinen.
Seuraavat askeleet
Tällä viikolla odotetaan julkaistavan useita uusia malleja: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Kilpailu on siirtymässä "kuka on älykkäämpi" -vaiheesta "kuka on halvempi" -vaiheeseen. Tämä on hyvä uutinen käyttäjille. OpenAI:lle? Ei välttämättä.





