Claude Code vs Codex：Saya melihat pengujian selama 38 menit, perbedaannya lebih besar dari yang dibayangkan

Pertama-tama, kesimpulannya: jika Anda adalah pengembang independen, atau perlu dengan cepat mengubah ide menjadi produk, pilih Claude Code. Tidak ada yang perlu diperdebatkan.

Saya biasanya menggunakan Claude Code, Codex hanya sesekali saya buka untuk mencoba. Preferensi ini bukan karena mengikuti tren, Claude Code diperbarui terlalu cepat, pendirinya Boris Churney sering berbagi pengalaman timnya menggunakan alat ini untuk pengembangan nyata di Twitter. Bukan demo, tetapi benar-benar berjalan di lingkungan produksi.

Bagaimana dengan Codex? Kemampuannya memang kuat, saya pernah mencoba membuat beberapa aplikasi kecil. Di kalangan orang-orang, ada yang mengatakan bahwa untuk backend dan keamanan, Codex lebih cocok digunakan.

Pendiri Clawdbot, Peter Steinberger, menyatakan bahwa ia menggunakan waktu sekitar 10 hari untuk vibe coding membuat prototipe Clawdbot, terutama mengandalkan Claude Code dan Codex untuk pengembangan, di mana pengkodean yang kompleks dan bagian inti lebih mengandalkan Codex.

Jadi, mana yang lebih cocok sebagai alat pemrograman AI? Sebelumnya saya juga tidak yakin.

Sampai melihat pengujian ini.

Blogger luar negeri, Mansel Scheffel, melakukan eksperimen yang sangat hardcore: memberikan dua alat prompt yang sama persis, meminta mereka membangun aplikasi dari nol, dan meluncurkannya. Seluruh proses direkam, selama 38 menit.

I. Pengaturan Eksperimen: Pertarungan yang Sepenuhnya Adil

Tugasnya sangat sederhana tetapi juga lengkap: membangun aplikasi analisis intelijen pesaing yang disebut "Rival".

Pengguna memasukkan URL perusahaan, aplikasi secara otomatis mengambil informasi tentang perusahaan tersebut dan pesaingnya, menghasilkan laporan analisis kompetitif yang lengkap. Jika Anda meminta perusahaan konsultan untuk melakukan analisis ini, setidaknya Anda harus mengeluarkan 10 ribu dolar.

Tumpukan teknologi: Supabase (database + otentikasi) + Firecrawl (pengambilan web) + Vercel (penyebaran)

Aturan: prompt yang sama persis, tanpa petunjuk tambahan, lihat siapa yang dapat menyelesaikannya secara mandiri.

II. Putaran Pertama: Tahap Perencanaan

Codex langsung bertanya puluhan pertanyaan.

Siapa pengguna target?
Model apa yang digunakan untuk analisis?
Metode otentikasi mana yang dipilih?
Bagaimana gaya UI ditentukan?
Berapa batas penggunaan default yang ditetapkan?

Claude Code? Tidak ada satu pun pertanyaan yang diajukan.

Langsung mulai menulis kode.

Penilaian blogger sangat tepat: "Codex seperti magang yang berhati-hati, Claude Code seperti profesional yang percaya diri."

III. Putaran Kedua: Kecepatan Pembangunan

Kemudian adalah menunggu yang panjang.

Claude Code: sekitar 1 jam selesai
Codex: lebih dari 2 jam, masih berlanjut

Kata-kata blogger saya catat: "Saya sudah duduk di sini selama 2 jam 34 menit, sebagian besar waktu dihabiskan untuk menunggu Codex."

IV. Putaran Ketiga: Perbandingan Kualitas UI

Setelah kedua sisi selesai dikerjakan, blogger membuka antarmuka untuk perbandingan.

Antarmuka Claude Code: tidak terlalu mengesankan, tetapi dapat digunakan. Tata letak wajar, font normal.

Antarmuka Codex: blogger langsung mengeluh—

"Jujur, antarmuka ini sangat jelek. Tahun 2026, bagaimana bisa menghasilkan font dan jarak seperti ini?"

V. Putaran Keempat: Pengujian Fitur

Ujian sebenarnya datang: meminta kedua sisi untuk menganalisis ClickUp.

Claude Code:

Pertama kali dijalankan, terjadi kesalahan. Tetapi perbaikan sangat cepat, dalam beberapa menit menemukan masalah (konfigurasi verifikasi JWT), diperbaiki dalam waktu 4 menit.

Setelah diperbaiki, berhasil mengambil ClickUp dan pesaingnya: Monday, Notion, Asana, Atlassian. Laporan juga dihasilkan.

Codex:

Menghadapi kesalahan yang sama.

Menghabiskan 19 menit untuk menemukan masalah.

Setelah diperbaiki, tetap tidak berhasil. Blogger menunggu lama, akhirnya menyerah.

VI. Putaran Kelima: Penilaian Pihak Ketiga

Blogger meminta Gemini Pro 3 untuk menilai dua repositori kode secara buta. Bagian ini cukup menarik.

Dalam hal keamanan backend: Codex menang.

Gemini percaya bahwa arsitektur keamanannya lebih matang: kebijakan keamanan tingkat baris (RLS) yang lengkap, log audit yang tidak dapat diubah, dan model otorisasi yang lebih baik. Ini juga mengonfirmasi pandangan di kalangan orang-orang—untuk backend dan keamanan, Codex memang memiliki satu set.

Dalam hal kualitas frontend: Claude Code menang telak.

Integritas kode, kejelasan logika, dan kualitas implementasi UI, semuanya jelas lebih baik.

Kesimpulan blogger sangat langsung:

"Anda bisa meyakinkan saya bahwa Codex lebih aman, tetapi Anda tidak bisa meyakinkan saya untuk menggunakannya. Karena pengalaman penggunanya sangat buruk. Alat yang bahkan tidak dapat memenuhi fungsi dasar, seberapa aman pun, apa artinya?"

VII. Ringkasan Perbedaan Inti

Setelah melihat pengujian ini, pemikiran saya sedikit berubah.

Sebelumnya saya merasa kedua alat memiliki kelebihan dan kekurangan masing-masing, pilihan tergantung pada situasi. Sekarang saya merasa, jika Anda adalah pengembang independen, atau perlu dengan cepat memvalidasi ide, membangun MVP, efisiensi dan keandalan Claude Code jauh lebih unggul. Waktu adalah uang, saat Codex bertanya pertanyaan kesepuluh Anda, Claude Code mungkin sudah berjalan.

Tetapi jika Anda bekerja di backend tingkat perusahaan, dengan persyaratan keamanan yang ketat, Codex layak dipertimbangkan. Syaratnya adalah Anda harus memiliki kesabaran.

Referensi

Video YouTube: Claude Code vs Codex Head-to-Head oleh Mansel Scheffel（tautan）
File pengujian: Google Drive - Semua kode dan file konfigurasi（tautan）

Claude Code vs Codex：Saya melihat pengujian selama 38 menit, perbedaannya lebih besar dari yang dibayangkan

Claude Code vs Codex：Saya melihat pengujian selama 38 menit, perbedaannya lebih besar dari yang dibayangkan

I. Pengaturan Eksperimen: Pertarungan yang Sepenuhnya Adil

II. Putaran Pertama: Tahap Perencanaan

III. Putaran Kedua: Kecepatan Pembangunan

IV. Putaran Ketiga: Perbandingan Kualitas UI

V. Putaran Keempat: Pengujian Fitur

VI. Putaran Kelima: Penilaian Pihak Ketiga

VII. Ringkasan Perbedaan Inti

Referensi

You Might Also Like

Panduan Modifikasi Claude Code Buddy: Cara Mendapatkan Hewan Peliharaan Legendaris Bersinar

Obsidian Meluncurkan Defuddle, Meningkatkan Obsidian Web Clipper ke Tingkat Baru

OpenAI Tiba-tiba Mengumumkan "Tiga dalam Satu": Penggabungan Browser + Pemrograman + ChatGPT, Mengakui Kesalahan Tahun Lalu

2026, Jangan Lagi Memaksa Diri untuk 'Disiplin'! Lakukan 8 Hal Kecil Ini, Kesehatan Akan Datang Secara Alami

Ibu-Ibu yang Berusaha Menurunkan Berat Badan tetapi Tidak Berhasil, Pasti Terjebak di Sini

Panduan Menjalankan AI Browser 24 Jam Secara Stabil