Claude Code vs Codex: Ich habe 38 Minuten lang getestet, der Unterschied ist größer als erwartet
Claude Code vs Codex: Ich habe 38 Minuten lang getestet, der Unterschied ist größer als erwartet
Zuerst das Fazit: Wenn du ein unabhängiger Entwickler bist oder schnell Ideen in Produkte umsetzen musst, wähle Claude Code. Da gibt es nichts zu überlegen.
Ich benutze normalerweise hauptsächlich Claude Code, Codex öffne ich nur gelegentlich zum Ausprobieren. Diese Vorliebe ist nicht nur ein Trend, Claude Code wird sehr schnell aktualisiert, und der Gründer Boris Churney teilt oft auf Twitter Erfahrungen des Teams, das es für echte Entwicklungen verwendet. Es ist kein Demo, sondern echte Anwendungen, die in Produktionsumgebungen laufen.
Und Codex? Die Fähigkeiten sind tatsächlich stark, ich habe ein paar kleine Programme damit erstellt. In der Community sagen einige, dass Codex besser für Backend-Entwicklung und Sicherheit geeignet ist.
Peter Steinberger, der Gründer von Clawdbot, erklärte, dass er etwa 10 Tage mit Vibe Coding gebraucht hat, um den Prototyp von Clawdbot zu erstellen, wobei er hauptsächlich auf Claude Code und Codex zur Entwicklung zurückgegriffen hat, wobei er für komplexe Codierung und die Kernteile mehr auf Codex angewiesen war.
Also, welcher von beiden eignet sich besser als AI-Programmierwerkzeug? Ich war mir vorher auch nicht sicher.
Bis ich diesen Test sah.
Der ausländische Blogger Mansel Scheffel hat ein sehr hartes Experiment durchgeführt: Er gab beiden Werkzeugen genau denselben Prompt und ließ sie eine Anwendung von Grund auf neu erstellen und bereitstellen. Der gesamte Prozess wurde aufgezeichnet, 38 Minuten.
I. Experimentelle Festlegung: Ein völlig fairer Wettkampf
Die Aufgabe ist einfach, aber auch vollständig: Erstelle eine Anwendung zur Wettbewerbsanalyse namens "Rival".
Der Benutzer gibt die URL des Unternehmens ein, die Anwendung zieht automatisch Informationen über dieses Unternehmen und seine Wettbewerber und erstellt einen vollständigen Wettbewerbsanalysebericht. Eine solche Analyse würde bei einer Beratungsfirma mindestens 10.000 Dollar kosten.
Technologiestack: Supabase (Datenbank + Authentifizierung) + Firecrawl (Web-Crawling) + Vercel (Bereitstellung)
Regeln: Völlig identische Eingabeaufforderungen, keine zusätzlichen Hinweise, um zu sehen, wer es unabhängig abschließen kann.
II. Erste Runde: Planungsphase
Codex fragt sofort zehn Fragen.
- Wer ist die Zielgruppe?
- Welches Modell wird zur Analyse verwendet?
- Welche Authentifizierungsmethode wird gewählt?
- Wie wird der UI-Stil festgelegt?
- Wie hoch wird das Standardnutzungslimit gesetzt?
Er begann sofort mit dem Schreiben von Code.
Die Bewertung des Bloggers ist sehr treffend: "Codex ist wie ein vorsichtiger Praktikant, Claude Code ist wie ein selbstbewusster Profi."
III. Zweite Runde: Baugeschwindigkeit
Dann folgt das lange Warten.
- Claude Code: Ungefähr 1 Stunde bis zur Fertigstellung
- Codex: Über 2 Stunden, immer noch am Arbeiten
IV. Dritte Runde: UI-Qualitätsvergleich
Nachdem beide Seiten bereitgestellt wurden, öffnete der Blogger die Benutzeroberfläche zum Vergleich.
Die Benutzeroberfläche von Claude Code: Nicht überwältigend, aber funktional. Die Anordnung ist vernünftig, die Schriftart ist normal.
Die Benutzeroberfläche von Codex: Der Blogger beschwerte sich sofort —
"Um ehrlich zu sein, diese Benutzeroberfläche ist zu hässlich. Es ist 2026, wie kann man so eine Schriftart und Abstände generieren?"
V. Vierte Runde: Funktionstest
Die echte Prüfung kam: Lass beide Seiten ClickUp analysieren.
Claude Code:
Beim ersten Durchlauf gab es einen Fehler. Aber die Behebung war schnell, das Problem (JWT-Überprüfungs-Konfiguration) wurde in wenigen Minuten lokalisiert und innerhalb von 4 Minuten behoben.
Nach der Behebung konnte ClickUp und seine Wettbewerber: Monday, Notion, Asana, Atlassian erfolgreich erfasst werden. Der Bericht wurde ebenfalls erstellt.
Codex:
Stieß auf denselben Fehler.
Es dauerte 19 Minuten, um das Problem zu finden.
Nach der Behebung funktionierte es immer noch nicht. Der Blogger wartete lange und gab schließlich auf.
VI. Fünfte Runde: Dritte Bewertung
Der Blogger ließ Gemini Pro 3 beide Codebasen blind bewerten. Dieser Abschnitt war ziemlich interessant.
Im Bereich der Backend-Sicherheit: Codex gewann.
Gemini glaubte, dass seine Sicherheitsarchitektur ausgereifter sei: Vollständige zeilenbasierte Sicherheitsrichtlinien (RLS), unveränderliche Audit-Protokolle, Autorisierungsmodelle wurden besser umgesetzt. Dies bestätigt auch die Meinung in der Community — für Backend-Entwicklung und Sicherheit hat Codex tatsächlich eine solide Grundlage.
Im Bereich der Frontend-Qualität: Claude Code gewann klar.
Code-Vollständigkeit, logische Klarheit und UI-Implementierungsqualität waren deutlich besser.
Die Zusammenfassung des Bloggers ist sehr direkt:
"Du kannst mich überzeugen, dass Codex sicherer ist, aber du kannst mich nicht überzeugen, es zu benutzen. Denn die Benutzererfahrung ist einfach zu schlecht. Ein Werkzeug, das nicht einmal grundlegende Funktionen erfüllen kann, ist egal wie sicher, was bringt das?"
VII. Zusammenfassung der Kernunterschiede
Nach diesem Test hat sich meine Meinung etwas geändert.
Früher dachte ich, dass beide Werkzeuge ihre Vor- und Nachteile haben und die Wahl vom Szenario abhängt. Jetzt denke ich, dass, wenn du ein unabhängiger Entwickler bist oder schnell Ideen validieren und ein MVP erstellen musst, die Effizienz und Zuverlässigkeit von Claude Code überlegen ist. Zeit ist Geld, während Codex dir die zehnte Frage stellt, könnte Claude Code bereits laufen.
Aber wenn du ein unternehmensweites Backend machst und strenge Sicherheitsanforderungen hast, ist Codex eine Überlegung wert. Vorausgesetzt, du hast Geduld.

