Il muro dei costi di GPT

2/17/2026
3 min read

Nell'ultima settimana, la discussione su GPT su X ha assunto un nuovo focus: non la capacità, ma il costo.

ARC-AGI: Il confine dell'intelligenza

Le prestazioni dei modelli più avanzati su ARC-AGI-2:

ModelloPunteggio ARC-AGI-2
GPT-5.2 Pro~54%
GPT-5.2 Refine~73%
Umano100%

Il divario tra il 54% e il 73% non è un problema di intelligenza, ma di "affinamento" - far controllare ripetutamente al modello le proprie risposte. Ciò richiede più calcoli, il che significa costi più elevati.

Il costo reale degli Agent

Costo annuale di un Agent di livello enterprise 24/7 (20 milioni di token di input + 20 milioni di token di output al giorno):

ModelloCosto annuale
Palmyra X5~$48K
GPT-5.2 Standard~$57K
Gemini 2.5 Pro~$82K
Claude Sonnet 4.5~$131K
Claude Opus 4.6~$219K
GPT-5.2 Pro~$690K

GPT-5.2 Pro è 12 volte più costoso di GPT-5.2 Standard. Non si tratta di un problema di strategia di prezzo, ma di struttura dei costi.

"Before you deploy 100 AI agents, run the math." — @waseem_s

Il nuovo test di Turing

Una semplice domanda sta diventando un nuovo test di intelligenza:

"L'autolavaggio è a 40 metri da casa mia. Voglio lavare la macchina. Devo andarci a piedi o in macchina?"

Modelli che superano il test: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Modelli che falliscono il test: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

Perché questo test ha senso? Perché testa il "ragionamento di buon senso" piuttosto che il "recupero di conoscenza". 40 metri sono una distanza percorribile a piedi. L'auto è sporca e ha bisogno di essere lavata. Ma non guideresti un'auto sporca per 40 metri per lavarla, a meno che tu non capisca il buon senso.

La storia non si ripete, ma fa rima

"I sistemi esperti sono nati negli anni '70, sono fioriti negli anni '80 ed erano ampiamente considerati il futuro dell'IA." — @ChombaBupe

I modelli GPT sono nati nel 2018, sono fioriti negli anni 2020 ed erano ampiamente considerati il futuro dell'IA.

Il fallimento dei sistemi esperti non è stato dovuto al fatto che non fossero abbastanza intelligenti, ma al fatto che i costi di manutenzione erano troppo alti e la scalabilità troppo scarsa. Quando la knowledge base deve essere mantenuta manualmente, la scala è il nemico.

GPT sta affrontando un problema speculare: il modello è intelligente, ma il costo del ragionamento è troppo alto. Quando ogni richiesta richiede un'enorme quantità di calcoli, la scala è ugualmente il nemico.

Prossimi passi

Questa settimana sono previste diverse nuove versioni di modelli: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

La competizione si sta spostando da "chi è più intelligente" a "chi è più economico". Questa è una buona notizia per gli utenti. Per OpenAI? Non necessariamente.

Published in Technology

You Might Also Like