Die Kostenmauer von GPT
In der vergangenen Woche hat sich die Diskussion über GPT auf X auf einen neuen Schwerpunkt verlagert: nicht die Fähigkeiten, sondern die Kosten.
ARC-AGI: Die Grenzen der Intelligenz
Die Leistung der derzeit fortschrittlichsten Modelle auf ARC-AGI-2:
| Modell | ARC-AGI-2 Punktzahl |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Mensch | 100% |
Die Differenz zwischen 54% und 73% ist kein Intelligenzproblem, sondern ein Problem der "Verfeinerung" - das Modell seine Antworten wiederholt überprüfen zu lassen. Dies erfordert mehr Rechenleistung, was höhere Kosten bedeutet.
Die wahren Kosten von Agenten
Jährliche Kosten für einen 24/7-Agenten der Enterprise-Klasse (20 Millionen Eingabe- + 20 Millionen Ausgabe-Token pro Tag):
| Modell | Jährliche Kosten |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro ist 12-mal teurer als GPT-5.2 Standard. Dies ist kein Problem der Preisgestaltung, sondern ein Problem der Kostenstruktur.
"Bevor Sie 100 KI-Agenten einsetzen, rechnen Sie nach." — @waseem_s
Der neue Turing-Test
Eine einfache Frage wird zum neuen Intelligenztest:
"Die Autowaschanlage ist 40 Meter von meinem Haus entfernt. Ich möchte mein Auto waschen. Soll ich zu Fuß gehen oder fahren?"
Bestandene Modelle: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Nicht bestandene Modelle: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Warum ist dieser Test sinnvoll? Weil er "gesunden Menschenverstand" und nicht "Wissensabruf" testet. 40 Meter sind eine Gehstrecke. Das Auto ist schmutzig und muss gewaschen werden. Aber man fährt kein schmutziges Auto 40 Meter weit, um es zu waschen - es sei denn, man hat keinen gesunden Menschenverstand.
Die Geschichte wiederholt sich nicht, aber sie reimt sich
"Expertensysteme wurden in den 1970er Jahren geboren, blühten in den 1980er Jahren auf und galten weithin als die Zukunft der KI." — @ChombaBupe
GPT-Modelle wurden 2018 geboren, blühten in den 2020er Jahren auf und gelten weithin als die Zukunft der KI.
Das Scheitern von Expertensystemen lag nicht daran, dass sie nicht intelligent genug waren, sondern daran, dass die Wartungskosten zu hoch und die Skalierbarkeit zu gering war. Wenn die Wissensbasis manuell gepflegt werden muss, ist die Größe der Feind.
GPT steht vor einem spiegelbildlichen Problem: Das Modell ist intelligent, aber die Kosten für das Schließen von Schlussfolgerungen sind zu hoch. Wenn jede Anfrage viel Rechenleistung erfordert, ist die Größe ebenfalls der Feind.
Nächste Schritte
Es wird erwartet, dass diese Woche mehrere neue Modelle veröffentlicht werden: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Der Wettbewerb verlagert sich von "Wer ist intelligenter" zu "Wer ist billiger". Das sind gute Nachrichten für die Nutzer. Für OpenAI? Nicht unbedingt.





