Claude Code vs Codex：Saya telah melihat ujian selama 38 minit, perbezaan lebih besar daripada yang dijangkakan

Pertama sekali, kesimpulan: Jika anda seorang pembangun bebas, atau perlu dengan cepat mengubah idea menjadi produk, pilih Claude Code. Tiada apa yang perlu diragukan.

Saya biasanya menggunakan Claude Code, Codex hanya dibuka sekali-sekala untuk mencuba. Kecenderungan ini bukan kerana pengaruh, Claude Code mengemas kini terlalu cepat, pengasas Boris Churney sering berkongsi pengalaman pasukan menggunakan ia untuk pembangunan sebenar di Twitter. Bukan demo, tetapi sesuatu yang benar-benar berjalan dalam persekitaran pengeluaran.

Bagaimana dengan Codex? Kemampuannya memang kuat, saya telah mencuba membuat beberapa aplikasi kecil. Dalam kalangan rakan-rakan, ada yang mengatakan bahawa untuk backend dan keselamatan, Codex lebih sesuai.

Pengasas Clawdbot, Peter Steinberger, menyatakan bahawa dia menghabiskan kira-kira 10 hari untuk vibe coding untuk menghasilkan prototaip Clawdbot, bergantung terutamanya kepada Claude Code dan Codex untuk pembangunan, di mana pengkodan yang kompleks dan bahagian teras dia lebih bergantung kepada Codex.

Jadi, yang mana satu lebih sesuai sebagai alat pengaturcaraan AI? Saya sebelum ini juga tidak pasti.

Sehingga saya melihat ujian ini.

Blogger luar negara, Mansel Scheffel, melakukan eksperimen yang sangat keras: memberikan dua alat prompt yang sama, membiarkan mereka membina aplikasi dari awal, dan melancarkannya. Seluruh proses dirakam, selama 38 minit.

I. Tetapan eksperimen: Pertarungan yang sepenuhnya adil

Tugasnya sangat mudah tetapi juga lengkap: membina aplikasi analisis intelijen pesaing yang dipanggil "Rival"

Pengguna memasukkan URL syarikat, aplikasi secara automatik mengambil maklumat tentang syarikat tersebut dan pesaingnya, menghasilkan laporan analisis persaingan yang lengkap. Jika anda mencari syarikat perunding untuk melakukan analisis ini, anda perlu membelanjakan sekurang-kurangnya 10,000 dolar.

Tumpuan teknikal: Supabase (pangkalan data + pengesahan) + Firecrawl (pengambilan laman web) + Vercel (penghantaran)

Peraturan: Prompt yang sama, tanpa petunjuk tambahan, lihat siapa yang dapat menyelesaikannya secara bebas.

II. Pusingan pertama: Fasa perancangan

Codex segera bertanya sepuluh soalan.

Siapa pengguna sasaran?
Model apa yang digunakan untuk analisis?
Pilih cara pengesahan yang mana?
Bagaimana untuk menentukan gaya UI?
Berapa had penggunaan yang ditetapkan secara lalai?

Claude Code? Tidak bertanya satu soalan pun.

Terus mula menulis kod.

Komen blogger sangat tepat: "Codex seperti pelatih yang berhati-hati, Claude Code seperti pakar yang yakin."

III. Pusingan kedua: Kelajuan pembinaan

Kemudian adalah menunggu yang panjang.

Claude Code: Kira-kira 1 jam siap
Codex: Lebih 2 jam, masih meneruskan

Kata-kata blogger saya catat: "Saya sudah duduk di sini selama 2 jam 34 minit, kebanyakan masa menunggu Codex."

IV. Pusingan ketiga: Perbandingan kualiti UI

Setelah kedua-dua pihak selesai dihantar, blogger membuka antaramuka untuk perbandingan.

Antaramuka Claude Code: Tidak terlalu menakjubkan, tetapi boleh digunakan. Susun atur yang munasabah, jenis huruf yang normal.

Antaramuka Codex: Blogger mengeluh secara langsung——

"Secara jujur, antaramuka ini sangat hodoh. Pada tahun 2026, bagaimana boleh menghasilkan jenis huruf dan jarak seperti ini?"

V. Pusingan keempat: Ujian fungsi

Ujian sebenar datang: membiarkan kedua-dua pihak menganalisis ClickUp.

Claude Code:

Pertama kali menjalankan, terdapat ralat. Tetapi pembetulan sangat cepat, beberapa minit untuk mengenal pasti masalah (konfigurasi pengesahan JWT), diperbaiki dalam masa 4 minit.

Setelah diperbaiki, berjaya mengambil ClickUp dan pesaingnya: Monday, Notion, Asana, Atlassian. Laporan juga dihasilkan.

Codex:

Menghadapi ralat yang sama.

Menghabiskan 19 minit untuk mencari masalah.

Setelah diperbaiki, masih tidak berfungsi. Blogger menunggu lama lagi, akhirnya menyerah.

VI. Pusingan kelima: Penilaian pihak ketiga

Blogger meminta Gemini Pro 3 untuk menilai secara buta dua repositori kod. Bahagian ini sangat menarik.

Dari segi keselamatan backend: Codex menang

Gemini berpendapat bahawa seni bina keselamatannya lebih matang: strategi keselamatan tahap baris yang lengkap (RLS), log audit yang tidak boleh diubah, dan model pengesahan yang lebih baik. Ini juga mengesahkan pandangan dalam kalangan rakan-rakan——untuk backend dan keselamatan, Codex memang mempunyai satu set.

Dari segi kualiti frontend: Claude Code menang dengan jelas

Keseluruhan kod, kejelasan logik, kualiti pelaksanaan UI, semuanya jelas lebih baik.

Kesimpulan blogger sangat langsung:

"Anda boleh meyakinkan saya bahawa Codex lebih selamat, tetapi anda tidak dapat meyakinkan saya untuk menggunakannya. Kerana pengalaman pengguna terlalu buruk. Alat yang tidak dapat melaksanakan fungsi asas, apa gunanya walaupun ia sangat selamat?"

VII. Ringkasan perbezaan utama

Setelah melihat ujian ini, pemikiran saya sedikit berubah.

Sebelum ini saya berpendapat bahawa kedua-dua alat mempunyai kelebihan dan kelemahan masing-masing, pilihan bergantung kepada senario. Sekarang saya berpendapat, jika anda seorang pembangun bebas, atau perlu mengesahkan idea dengan cepat, membina MVP, kecekapan dan kebolehpercayaan Claude Code jauh lebih baik. Masa adalah wang, ketika Codex bertanya soalan kesepuluh anda, Claude Code mungkin sudah berjalan.

Tetapi jika anda bekerja pada backend peringkat perusahaan, dengan keperluan keselamatan yang ketat, Codex patut dipertimbangkan. Syaratnya adalah anda perlu mempunyai kesabaran.

Rujukan

Video YouTube: Claude Code vs Codex Head-to-Head oleh Mansel Scheffel（link）
Fail ujian: Google Drive - Semua kod dan fail konfigurasi（link）

Claude Code vs Codex：Saya telah melihat ujian selama 38 minit, perbezaan lebih besar daripada yang dijangkakan

Claude Code vs Codex：Saya telah melihat ujian selama 38 minit, perbezaan lebih besar daripada yang dijangkakan

I. Tetapan eksperimen: Pertarungan yang sepenuhnya adil

II. Pusingan pertama: Fasa perancangan

III. Pusingan kedua: Kelajuan pembinaan

IV. Pusingan ketiga: Perbandingan kualiti UI

V. Pusingan keempat: Ujian fungsi

VI. Pusingan kelima: Penilaian pihak ketiga

VII. Ringkasan perbezaan utama

Rujukan

You Might Also Like

Panduan Pengubahsuaian Claude Code Buddy: Cara Mendapatkan Haiwan Peliharaan Legenda Berkilau

Obsidian Melancarkan Defuddle, Meningkatkan Obsidian Web Clipper ke Tahap Baru

OpenAI Tiba-tiba Mengumumkan "Tiga dalam Satu": Penggabungan Pelayar + Pengaturcaraan + ChatGPT, Mengakui Kesilapan Tahun Lepas

2026, Jangan Paksa Diri Sendiri 'Disiplin'! Lakukan 8 Perkara Kecil Ini, Kesihatan Akan Datang Secara Semula Jadi

Ibu-ibu yang berusaha menurunkan berat badan tetapi tidak berhasil, pasti terjebak di sini

AI Browser 24小时稳定运行指南