Claude Code vs Codex: Po 38 minutach testów, różnica jest większa niż się spodziewałem
Claude Code vs Codex: Po 38 minutach testów, różnica jest większa niż się spodziewałem
Najpierw konkluzja: jeśli jesteś niezależnym deweloperem lub potrzebujesz szybko przekształcić pomysł w produkt, wybierz Claude Code. Nie ma co się zastanawiać.
Na co dzień używam głównie Claude Code, Codex otwieram tylko od czasu do czasu, żeby spróbować. To preferencja nie z powodu mody, Claude Code aktualizuje się zbyt szybko, a założyciel Boris Churney często dzieli się na Twitterze doświadczeniami zespołu z prawdziwego rozwoju. To nie jest demo, to naprawdę działa w środowisku produkcyjnym.
A Codex? Rzeczywiście ma moc, zrobiłem kilka małych programów. W kręgach mówi się, że do backendu i bezpieczeństwa lepiej używać Codex.
Założyciel Clawdbot, Peter Steinberger, powiedział, że w ciągu około 10 dni vibe coding stworzył prototyp Clawdbot, głównie polegając na Claude Code i Codex, przy czym w bardziej skomplikowanym kodowaniu i kluczowych częściach bardziej polegał na Codex.
Więc który z tych dwóch narzędzi jest bardziej odpowiedni jako narzędzie do programowania AI? Nie byłem wcześniej pewny.
Aż do momentu, gdy zobaczyłem ten test.
Zagraniczny bloger Mansel Scheffel przeprowadził bardzo twardy eksperyment: dał dwa narzędzia z identycznym promptem, aby zbudowały aplikację od zera i wdrożyły ją. Cały proces został nagrany, trwał 38 minut.
I. Ustawienia eksperymentu: całkowicie sprawiedliwa konfrontacja
Zadanie jest proste, ale pełne: zbudować aplikację do analizy konkurencji o nazwie "Rival".
Użytkownik wprowadza URL firmy, aplikacja automatycznie zbiera informacje o tej firmie i jej konkurentach, generując pełny raport analizy konkurencji. Taka analiza, gdyby zlecić ją firmie konsultingowej, kosztowałaby co najmniej 10 tysięcy dolarów.
Stos technologiczny: Supabase (baza danych + uwierzytelnianie) + Firecrawl (web scraping) + Vercel (wdrożenie)
Zasady: całkowicie identyczne podpowiedzi, bez dodatkowych wskazówek, zobaczymy, kto potrafi to zrobić samodzielnie.
II. Pierwsza runda: faza planowania
Codex od razu zadaje ci kilkanaście pytań.
- Kto jest docelowym użytkownikiem?
- Jakiego modelu użyjesz do analizy?
- Którą metodę uwierzytelniania wybierzesz?
- Jak ustalisz styl UI?
- Jakie ustalisz limity domyślnego użycia?
Od razu zaczął pisać kod.
Ocena blogera jest trafna: "Codex jest jak ostrożny stażysta, Claude Code jak pewny siebie weteran."
III. Druga runda: szybkość budowy
A potem nastał długi czas oczekiwania.
- Claude Code: około 1 godziny na zakończenie
- Codex: ponad 2 godziny, wciąż trwa
IV. Trzecia runda: porównanie jakości UI
Po wdrożeniu obu aplikacji, bloger otworzył interfejs do porównania.
Interfejs Claude Code: nie jest oszałamiający, ale działa. Układ jest rozsądny, czcionka normalna.
Interfejs Codex: bloger od razu skrytykował —
"Szczerze mówiąc, ten interfejs jest brzydki. Jest rok 2026, jak można wygenerować taką czcionkę i odstępy?"
V. Czwarta runda: test funkcji
Prawdziwy test nadszedł: obie strony miały przeanalizować ClickUp.
Claude Code:
Pierwszy błąd podczas uruchamiania. Ale naprawa była szybka, kilka minut na zlokalizowanie problemu (konfiguracja weryfikacji JWT), naprawiono w ciągu 4 minut.
Po naprawie udało się zebrać dane ClickUp i jego konkurentów: Monday, Notion, Asana, Atlassian. Raport również został wygenerowany.
Codex:
Napotkał ten sam błąd.
Zajęło 19 minut, aby znaleźć problem.
Po naprawie nadal nie działał. Bloger czekał długo, w końcu się poddał.
VI. Piąta runda: ocena przez stronę trzecią
Bloger poprosił Gemini Pro 3 o ocenę obu repozytoriów kodu w trybie blind. Ten etap był dość interesujący.
W zakresie bezpieczeństwa backendu: Codex wygrał.
Gemini uznał, że jego architektura bezpieczeństwa jest bardziej dojrzała: pełna polityka bezpieczeństwa na poziomie wiersza (RLS), niezmienne dzienniki audytowe, lepsze modele autoryzacji. To również potwierdza poglądy w kręgach — do backendu i bezpieczeństwa, Codex rzeczywiście ma swoje atuty.
W zakresie jakości frontendowej: Claude Code zdecydowanie wygrał.
Całość kodu, jasność logiki, jakość realizacji UI, wszystko było wyraźnie lepsze.
Podsumowanie blogera jest bardzo bezpośrednie:
"Możesz mnie przekonać, że Codex jest bezpieczniejszy, ale nie możesz mnie przekonać, żebym go używał. Bo jego doświadczenie użytkownika jest zbyt słabe. Narzędzie, które nie potrafi zrealizować podstawowych funkcji, nie ma znaczenia, jak bardzo jest bezpieczne."
VII. Podsumowanie kluczowych różnic
Po obejrzeniu tego testu, moje myśli się zmieniły.
Wcześniej myślałem, że oba narzędzia mają swoje zalety i wady, a wybór zależy od kontekstu. Teraz uważam, że jeśli jesteś niezależnym deweloperem lub potrzebujesz szybko zweryfikować pomysł, stworzyć MVP, efektywność i niezawodność Claude Code są zdecydowanie lepsze. Czas to pieniądz, gdy Codex zada ci dziesiąte pytanie, Claude Code może już działać.
Ale jeśli zajmujesz się backendem na poziomie przedsiębiorstwa i masz surowe wymagania dotyczące bezpieczeństwa, Codex jest wart rozważenia. Pod warunkiem, że masz cierpliwość.

