Claude Code vs Codex: Ich habe 38 Minuten lang getestet, der Unterschied ist größer als erwartet

Zuerst das Fazit: Wenn du ein unabhängiger Entwickler bist oder schnell Ideen in Produkte umsetzen musst, wähle Claude Code. Da gibt es nichts zu überlegen.

Ich benutze normalerweise hauptsächlich Claude Code, Codex öffne ich nur gelegentlich zum Ausprobieren. Diese Vorliebe ist nicht nur ein Trend, Claude Code wird sehr schnell aktualisiert, und der Gründer Boris Churney teilt oft auf Twitter Erfahrungen des Teams, das es für echte Entwicklungen verwendet. Es ist kein Demo, sondern echte Anwendungen, die in Produktionsumgebungen laufen.

Und Codex? Die Fähigkeiten sind tatsächlich stark, ich habe ein paar kleine Programme damit erstellt. In der Community sagen einige, dass Codex besser für Backend-Entwicklung und Sicherheit geeignet ist.

Peter Steinberger, der Gründer von Clawdbot, erklärte, dass er etwa 10 Tage mit Vibe Coding gebraucht hat, um den Prototyp von Clawdbot zu erstellen, wobei er hauptsächlich auf Claude Code und Codex zur Entwicklung zurückgegriffen hat, wobei er für komplexe Codierung und die Kernteile mehr auf Codex angewiesen war.

Also, welcher von beiden eignet sich besser als AI-Programmierwerkzeug? Ich war mir vorher auch nicht sicher.

Bis ich diesen Test sah.

Der ausländische Blogger Mansel Scheffel hat ein sehr hartes Experiment durchgeführt: Er gab beiden Werkzeugen genau denselben Prompt und ließ sie eine Anwendung von Grund auf neu erstellen und bereitstellen. Der gesamte Prozess wurde aufgezeichnet, 38 Minuten.

I. Experimentelle Festlegung: Ein völlig fairer Wettkampf

Die Aufgabe ist einfach, aber auch vollständig: Erstelle eine Anwendung zur Wettbewerbsanalyse namens "Rival".

Der Benutzer gibt die URL des Unternehmens ein, die Anwendung zieht automatisch Informationen über dieses Unternehmen und seine Wettbewerber und erstellt einen vollständigen Wettbewerbsanalysebericht. Eine solche Analyse würde bei einer Beratungsfirma mindestens 10.000 Dollar kosten.

Technologiestack: Supabase (Datenbank + Authentifizierung) + Firecrawl (Web-Crawling) + Vercel (Bereitstellung)

Regeln: Völlig identische Eingabeaufforderungen, keine zusätzlichen Hinweise, um zu sehen, wer es unabhängig abschließen kann.

II. Erste Runde: Planungsphase

Codex fragt sofort zehn Fragen.

Wer ist die Zielgruppe?
Welches Modell wird zur Analyse verwendet?
Welche Authentifizierungsmethode wird gewählt?
Wie wird der UI-Stil festgelegt?
Wie hoch wird das Standardnutzungslimit gesetzt?

Und Claude Code? Hat keine einzige Frage gestellt.

Er begann sofort mit dem Schreiben von Code.

Die Bewertung des Bloggers ist sehr treffend: "Codex ist wie ein vorsichtiger Praktikant, Claude Code ist wie ein selbstbewusster Profi."

III. Zweite Runde: Baugeschwindigkeit

Dann folgt das lange Warten.

Claude Code: Ungefähr 1 Stunde bis zur Fertigstellung
Codex: Über 2 Stunden, immer noch am Arbeiten

Die genauen Worte des Bloggers habe ich mir gemerkt: "Ich sitze jetzt seit 2 Stunden und 34 Minuten hier, die meiste Zeit habe ich auf Codex gewartet."

IV. Dritte Runde: UI-Qualitätsvergleich

Nachdem beide Seiten bereitgestellt wurden, öffnete der Blogger die Benutzeroberfläche zum Vergleich.

Die Benutzeroberfläche von Claude Code: Nicht überwältigend, aber funktional. Die Anordnung ist vernünftig, die Schriftart ist normal.

Die Benutzeroberfläche von Codex: Der Blogger beschwerte sich sofort —

"Um ehrlich zu sein, diese Benutzeroberfläche ist zu hässlich. Es ist 2026, wie kann man so eine Schriftart und Abstände generieren?"

V. Vierte Runde: Funktionstest

Die echte Prüfung kam: Lass beide Seiten ClickUp analysieren.

Claude Code:

Beim ersten Durchlauf gab es einen Fehler. Aber die Behebung war schnell, das Problem (JWT-Überprüfungs-Konfiguration) wurde in wenigen Minuten lokalisiert und innerhalb von 4 Minuten behoben.

Nach der Behebung konnte ClickUp und seine Wettbewerber: Monday, Notion, Asana, Atlassian erfolgreich erfasst werden. Der Bericht wurde ebenfalls erstellt.

Codex:

Stieß auf denselben Fehler.

Es dauerte 19 Minuten, um das Problem zu finden.

Nach der Behebung funktionierte es immer noch nicht. Der Blogger wartete lange und gab schließlich auf.

VI. Fünfte Runde: Dritte Bewertung

Der Blogger ließ Gemini Pro 3 beide Codebasen blind bewerten. Dieser Abschnitt war ziemlich interessant.

Im Bereich der Backend-Sicherheit: Codex gewann.

Gemini glaubte, dass seine Sicherheitsarchitektur ausgereifter sei: Vollständige zeilenbasierte Sicherheitsrichtlinien (RLS), unveränderliche Audit-Protokolle, Autorisierungsmodelle wurden besser umgesetzt. Dies bestätigt auch die Meinung in der Community — für Backend-Entwicklung und Sicherheit hat Codex tatsächlich eine solide Grundlage.

Im Bereich der Frontend-Qualität: Claude Code gewann klar.

Code-Vollständigkeit, logische Klarheit und UI-Implementierungsqualität waren deutlich besser.

Die Zusammenfassung des Bloggers ist sehr direkt:

"Du kannst mich überzeugen, dass Codex sicherer ist, aber du kannst mich nicht überzeugen, es zu benutzen. Denn die Benutzererfahrung ist einfach zu schlecht. Ein Werkzeug, das nicht einmal grundlegende Funktionen erfüllen kann, ist egal wie sicher, was bringt das?"

VII. Zusammenfassung der Kernunterschiede

Nach diesem Test hat sich meine Meinung etwas geändert.

Früher dachte ich, dass beide Werkzeuge ihre Vor- und Nachteile haben und die Wahl vom Szenario abhängt. Jetzt denke ich, dass, wenn du ein unabhängiger Entwickler bist oder schnell Ideen validieren und ein MVP erstellen musst, die Effizienz und Zuverlässigkeit von Claude Code überlegen ist. Zeit ist Geld, während Codex dir die zehnte Frage stellt, könnte Claude Code bereits laufen.

Aber wenn du ein unternehmensweites Backend machst und strenge Sicherheitsanforderungen hast, ist Codex eine Überlegung wert. Vorausgesetzt, du hast Geduld.

Referenzen

YouTube-Video: Claude Code vs Codex Head-to-Head von Mansel Scheffel (Link)
Testdateien: Google Drive - Alle Code- und Konfigurationsdateien (Link)

Claude Code vs Codex: Ich habe 38 Minuten lang getestet, der Unterschied ist größer als erwartet

Claude Code vs Codex: Ich habe 38 Minuten lang getestet, der Unterschied ist größer als erwartet

I. Experimentelle Festlegung: Ein völlig fairer Wettkampf

II. Erste Runde: Planungsphase

III. Zweite Runde: Baugeschwindigkeit

IV. Dritte Runde: UI-Qualitätsvergleich

V. Vierte Runde: Funktionstest

VI. Fünfte Runde: Dritte Bewertung

VII. Zusammenfassung der Kernunterschiede

Referenzen

You Might Also Like

Claude Code Buddy Änderungsanleitung: Wie man ein schimmerndes legendäres Haustier erhält

Obsidian hat Defuddle eingeführt und den Obsidian Web Clipper auf ein neues Niveau gehoben

OpenAI kündigt plötzlich "Drei-in-eins" an: Fusion von Browser + Programmierung + ChatGPT, interne Anerkennung von Fehlern im vergangenen Jahr

2026, sich nicht mehr selbst zur 'Disziplin' zwingen! Machen Sie diese 8 kleinen Dinge gut, Gesundheit kommt von ganz allein

Die Mütter, die sich bemühen abzunehmen und es nicht schaffen, scheitern definitiv hier

AI Browser 24 Stunden Stabilitätsleitfaden