Il muro dei costi di GPT

Nell'ultima settimana, la discussione su GPT su X ha assunto un nuovo focus: non la capacità, ma il costo.

ARC-AGI: Il confine dell'intelligenza

Le prestazioni dei modelli più avanzati su ARC-AGI-2:

Modello	Punteggio ARC-AGI-2
GPT-5.2 Pro	~54%
GPT-5.2 Refine	~73%
Umano	100%

Il divario tra il 54% e il 73% non è un problema di intelligenza, ma di "affinamento" - far controllare ripetutamente al modello le proprie risposte. Ciò richiede più calcoli, il che significa costi più elevati.

Il costo reale degli Agent

Costo annuale di un Agent di livello enterprise 24/7 (20 milioni di token di input + 20 milioni di token di output al giorno):

Modello	Costo annuale
Palmyra X5	~$48K
GPT-5.2 Standard	~$57K
Gemini 2.5 Pro	~$82K
Claude Sonnet 4.5	~$131K
Claude Opus 4.6	~$219K
GPT-5.2 Pro	~$690K

GPT-5.2 Pro è 12 volte più costoso di GPT-5.2 Standard. Non si tratta di un problema di strategia di prezzo, ma di struttura dei costi.

"Before you deploy 100 AI agents, run the math." — @waseem_s

Il nuovo test di Turing

Una semplice domanda sta diventando un nuovo test di intelligenza:

"L'autolavaggio è a 40 metri da casa mia. Voglio lavare la macchina. Devo andarci a piedi o in macchina?"

Modelli che superano il test: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Modelli che falliscono il test: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

Perché questo test ha senso? Perché testa il "ragionamento di buon senso" piuttosto che il "recupero di conoscenza". 40 metri sono una distanza percorribile a piedi. L'auto è sporca e ha bisogno di essere lavata. Ma non guideresti un'auto sporca per 40 metri per lavarla, a meno che tu non capisca il buon senso.

La storia non si ripete, ma fa rima

"I sistemi esperti sono nati negli anni '70, sono fioriti negli anni '80 ed erano ampiamente considerati il futuro dell'IA." — @ChombaBupe

I modelli GPT sono nati nel 2018, sono fioriti negli anni 2020 ed erano ampiamente considerati il futuro dell'IA.

Il fallimento dei sistemi esperti non è stato dovuto al fatto che non fossero abbastanza intelligenti, ma al fatto che i costi di manutenzione erano troppo alti e la scalabilità troppo scarsa. Quando la knowledge base deve essere mantenuta manualmente, la scala è il nemico.

GPT sta affrontando un problema speculare: il modello è intelligente, ma il costo del ragionamento è troppo alto. Quando ogni richiesta richiede un'enorme quantità di calcoli, la scala è ugualmente il nemico.

Prossimi passi

Questa settimana sono previste diverse nuove versioni di modelli: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

La competizione si sta spostando da "chi è più intelligente" a "chi è più economico". Questa è una buona notizia per gli utenti. Per OpenAI? Non necessariamente.

Il muro dei costi di GPT

ARC-AGI: Il confine dell'intelligenza

Il costo reale degli Agent

Il nuovo test di Turing

La storia non si ripete, ma fa rima

Prossimi passi

You Might Also Like

Guida alla modifica di Claude Code Buddy: come ottenere un animale domestico leggendario splendente

Obsidian ha lanciato Defuddle, portando Obsidian Web Clipper a un nuovo livello

OpenAI annuncia improvvisamente "tre in uno": fusione di browser + programmazione + ChatGPT, ammettendo internamente di aver sbagliato nell'ultimo anno

2026, non costringerti più alla "disciplina"! Fai queste 8 piccole cose e la salute arriverà naturalmente

Quelle mamme che si sforzano di dimagrire ma non ci riescono, sicuramente sono cadute qui

Guida al funzionamento stabile dell'AI Browser 24 ore su 24