Ściana kosztów GPT
W ciągu ostatniego tygodnia na X pojawił się nowy punkt w dyskusjach o GPT: nie możliwości, ale koszty.
ARC-AGI: Granice inteligencji
Obecne wyniki najnowocześniejszych modeli w ARC-AGI-2:
| Model | Wynik ARC-AGI-2 |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Człowiek | 100% |
Różnica między 54% a 73% to nie problem inteligencji, ale „dopracowania” – sprawiania, by model wielokrotnie sprawdzał swoje odpowiedzi. To wymaga więcej obliczeń, co oznacza wyższe koszty.
Prawdziwe koszty Agentów
Roczny koszt agenta klasy korporacyjnej działającego 24/7 (20 milionów tokenów wejściowych + 20 milionów tokenów wyjściowych dziennie):
| Model | Roczny koszt |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro jest 12 razy droższy niż GPT-5.2 Standard. To nie jest problem strategii cenowej, ale struktury kosztów.
"Zanim wdrożysz 100 agentów AI, policz koszty." — @waseem_s
Nowy test Turinga
Proste pytanie staje się nowym testem inteligencji:
"Myjnia samochodowa jest 40 metrów od mojego domu. Chcę umyć samochód. Powinienem iść pieszo czy jechać samochodem?"
Modele, które zdały: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Modele, które oblały: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Dlaczego ten test ma sens? Ponieważ testuje „rozumowanie zdroworozsądkowe”, a nie „wyszukiwanie wiedzy”. 40 metrów to odległość do przejścia pieszo. Samochód jest brudny i trzeba go umyć. Ale nie pojedziesz brudnym samochodem 40 metrów, żeby go umyć – chyba że nie masz zdrowego rozsądku.
Historia się nie powtarza, ale się rymuje
"Systemy eksperckie narodziły się w latach 70., rozkwitły w latach 80. i były powszechnie uważane za przyszłość AI." — @ChombaBupe
Modele GPT narodziły się w 2018 roku, rozkwitły w latach 2020. i są powszechnie uważane za przyszłość AI.
Porazka systemów eksperckich nie wynikała z braku inteligencji, ale z zbyt wysokich kosztów utrzymania i słabej skalowalności. Kiedy baza wiedzy wymaga ręcznej konserwacji, skala jest wrogiem.
GPT stoi w obliczu lustrzanego problemu: model jest inteligentny, ale koszt wnioskowania jest zbyt wysoki. Kiedy każde żądanie wymaga dużej ilości obliczeń, skala jest również wrogiem.
Następny krok
W tym tygodniu spodziewanych jest kilka nowych modeli: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Konkurencja przenosi się z „kto jest mądrzejszy” na „kto jest tańszy”. To dobra wiadomość dla użytkowników. Dla OpenAI? Niekoniecznie.





