Claude Code vs Codex:Saya melihat pengujian selama 38 menit, perbedaannya lebih besar dari yang dibayangkan
Claude Code vs Codex:Saya melihat pengujian selama 38 menit, perbedaannya lebih besar dari yang dibayangkan
Pertama-tama, kesimpulannya: jika Anda adalah pengembang independen, atau perlu dengan cepat mengubah ide menjadi produk, pilih Claude Code. Tidak ada yang perlu diperdebatkan.
Saya biasanya menggunakan Claude Code, Codex hanya sesekali saya buka untuk mencoba. Preferensi ini bukan karena mengikuti tren, Claude Code diperbarui terlalu cepat, pendirinya Boris Churney sering berbagi pengalaman timnya menggunakan alat ini untuk pengembangan nyata di Twitter. Bukan demo, tetapi benar-benar berjalan di lingkungan produksi.
Bagaimana dengan Codex? Kemampuannya memang kuat, saya pernah mencoba membuat beberapa aplikasi kecil. Di kalangan orang-orang, ada yang mengatakan bahwa untuk backend dan keamanan, Codex lebih cocok digunakan.
Pendiri Clawdbot, Peter Steinberger, menyatakan bahwa ia menggunakan waktu sekitar 10 hari untuk vibe coding membuat prototipe Clawdbot, terutama mengandalkan Claude Code dan Codex untuk pengembangan, di mana pengkodean yang kompleks dan bagian inti lebih mengandalkan Codex.
Jadi, mana yang lebih cocok sebagai alat pemrograman AI? Sebelumnya saya juga tidak yakin.
Sampai melihat pengujian ini.
Blogger luar negeri, Mansel Scheffel, melakukan eksperimen yang sangat hardcore: memberikan dua alat prompt yang sama persis, meminta mereka membangun aplikasi dari nol, dan meluncurkannya. Seluruh proses direkam, selama 38 menit.
I. Pengaturan Eksperimen: Pertarungan yang Sepenuhnya Adil
Tugasnya sangat sederhana tetapi juga lengkap: membangun aplikasi analisis intelijen pesaing yang disebut "Rival".
Pengguna memasukkan URL perusahaan, aplikasi secara otomatis mengambil informasi tentang perusahaan tersebut dan pesaingnya, menghasilkan laporan analisis kompetitif yang lengkap. Jika Anda meminta perusahaan konsultan untuk melakukan analisis ini, setidaknya Anda harus mengeluarkan 10 ribu dolar.
Tumpukan teknologi: Supabase (database + otentikasi) + Firecrawl (pengambilan web) + Vercel (penyebaran)
Aturan: prompt yang sama persis, tanpa petunjuk tambahan, lihat siapa yang dapat menyelesaikannya secara mandiri.
II. Putaran Pertama: Tahap Perencanaan
Codex langsung bertanya puluhan pertanyaan.
- Siapa pengguna target?
- Model apa yang digunakan untuk analisis?
- Metode otentikasi mana yang dipilih?
- Bagaimana gaya UI ditentukan?
- Berapa batas penggunaan default yang ditetapkan?
Langsung mulai menulis kode.
Penilaian blogger sangat tepat: "Codex seperti magang yang berhati-hati, Claude Code seperti profesional yang percaya diri."
III. Putaran Kedua: Kecepatan Pembangunan
Kemudian adalah menunggu yang panjang.
- Claude Code: sekitar 1 jam selesai
- Codex: lebih dari 2 jam, masih berlanjut
IV. Putaran Ketiga: Perbandingan Kualitas UI
Setelah kedua sisi selesai dikerjakan, blogger membuka antarmuka untuk perbandingan.
Antarmuka Claude Code: tidak terlalu mengesankan, tetapi dapat digunakan. Tata letak wajar, font normal.
Antarmuka Codex: blogger langsung mengeluh—
"Jujur, antarmuka ini sangat jelek. Tahun 2026, bagaimana bisa menghasilkan font dan jarak seperti ini?"
V. Putaran Keempat: Pengujian Fitur
Ujian sebenarnya datang: meminta kedua sisi untuk menganalisis ClickUp.
Claude Code:
Pertama kali dijalankan, terjadi kesalahan. Tetapi perbaikan sangat cepat, dalam beberapa menit menemukan masalah (konfigurasi verifikasi JWT), diperbaiki dalam waktu 4 menit.
Setelah diperbaiki, berhasil mengambil ClickUp dan pesaingnya: Monday, Notion, Asana, Atlassian. Laporan juga dihasilkan.
Codex:
Menghadapi kesalahan yang sama.
Menghabiskan 19 menit untuk menemukan masalah.
Setelah diperbaiki, tetap tidak berhasil. Blogger menunggu lama, akhirnya menyerah.
VI. Putaran Kelima: Penilaian Pihak Ketiga
Blogger meminta Gemini Pro 3 untuk menilai dua repositori kode secara buta. Bagian ini cukup menarik.
Dalam hal keamanan backend: Codex menang.
Gemini percaya bahwa arsitektur keamanannya lebih matang: kebijakan keamanan tingkat baris (RLS) yang lengkap, log audit yang tidak dapat diubah, dan model otorisasi yang lebih baik. Ini juga mengonfirmasi pandangan di kalangan orang-orang—untuk backend dan keamanan, Codex memang memiliki satu set.
Dalam hal kualitas frontend: Claude Code menang telak.
Integritas kode, kejelasan logika, dan kualitas implementasi UI, semuanya jelas lebih baik.
Kesimpulan blogger sangat langsung:
"Anda bisa meyakinkan saya bahwa Codex lebih aman, tetapi Anda tidak bisa meyakinkan saya untuk menggunakannya. Karena pengalaman penggunanya sangat buruk. Alat yang bahkan tidak dapat memenuhi fungsi dasar, seberapa aman pun, apa artinya?"
VII. Ringkasan Perbedaan Inti
Setelah melihat pengujian ini, pemikiran saya sedikit berubah.
Sebelumnya saya merasa kedua alat memiliki kelebihan dan kekurangan masing-masing, pilihan tergantung pada situasi. Sekarang saya merasa, jika Anda adalah pengembang independen, atau perlu dengan cepat memvalidasi ide, membangun MVP, efisiensi dan keandalan Claude Code jauh lebih unggul. Waktu adalah uang, saat Codex bertanya pertanyaan kesepuluh Anda, Claude Code mungkin sudah berjalan.
Tetapi jika Anda bekerja di backend tingkat perusahaan, dengan persyaratan keamanan yang ketat, Codex layak dipertimbangkan. Syaratnya adalah Anda harus memiliki kesabaran.

