Claude Code vs Codex: Eu assisti a 38 minutos de testes práticos, a diferença é maior do que eu imaginava
Claude Code vs Codex: Eu assisti a 38 minutos de testes práticos, a diferença é maior do que eu imaginava
Primeiro, a conclusão: se você é um desenvolvedor independente ou precisa transformar rapidamente uma ideia em um produto, escolha o Claude Code. Não há o que discutir.
Eu costumo usar principalmente o Claude Code, enquanto o Codex eu abro apenas ocasionalmente para testar. Essa preferência não é uma moda passageira; o Claude Code atualiza muito rapidamente, e o fundador Boris Churney frequentemente compartilha no Twitter as experiências da equipe usando-o em desenvolvimento real. Não é uma demonstração, é algo que realmente roda em ambiente de produção.
E o Codex? A capacidade é realmente forte; eu já fiz alguns pequenos programas com ele. No meu círculo, algumas pessoas dizem que para backend e segurança, o Codex é mais adequado.
O fundador do Clawdbot, Peter Steinberger, afirmou que levou cerca de 10 dias de vibe coding para criar o protótipo do Clawdbot, dependendo principalmente do Claude Code e do Codex para o desenvolvimento, sendo que para codificação complexa e partes centrais ele confia mais no Codex.
Então, qual dos dois é mais adequado como ferramenta de programação AI? Eu também não tinha certeza antes.
Até ver este teste prático.
O blogueiro estrangeiro Mansel Scheffel fez um experimento bem hardcore: deu aos dois ferramentas prompts completamente idênticos e pediu que construíssem um aplicativo do zero e o implantassem. Ele gravou todo o processo, que durou 38 minutos.
I. Configuração do experimento: um confronto totalmente justo
A tarefa é simples, mas completa: construir um aplicativo de análise de inteligência competitiva chamado "Rival".
O usuário insere a URL da empresa, e o aplicativo automaticamente coleta informações sobre essa empresa e seus concorrentes, gerando um relatório completo de análise competitiva. Se você contratar uma empresa de consultoria para fazer isso, vai custar pelo menos 10 mil dólares.
Stack tecnológico: Supabase (banco de dados + autenticação) + Firecrawl (web scraping) + Vercel (implantação)
Regras: prompts exatamente iguais, sem dicas adicionais, para ver quem consegue completar de forma independente.
II. Primeira rodada: fase de planejamento
O Codex começa perguntando uma dezena de questões.
- Quem é o usuário-alvo?
- Qual modelo usar para a análise?
- Qual método de autenticação escolher?
- Como definir o estilo da UI?
- Qual deve ser o limite de uso padrão?
Começou a escrever código imediatamente.
A avaliação do blogueiro foi precisa: "O Codex é como um estagiário cauteloso, enquanto o Claude Code é como um veterano confiante."
III. Segunda rodada: velocidade de construção
Então, vem a longa espera.
- Claude Code: cerca de 1 hora para concluir
- Codex: mais de 2 horas, ainda em andamento
IV. Terceira rodada: comparação da qualidade da UI
Depois que ambos foram implantados, o blogueiro abriu as interfaces para comparar.
A interface do Claude Code: não é deslumbrante, mas é utilizável. O layout é razoável, a fonte é normal.
A interface do Codex: o blogueiro criticou na hora —
"Sinceramente, essa interface é muito feia. Em 2026, como é possível gerar uma fonte e espaçamento assim?"
V. Quarta rodada: teste de funcionalidade
O verdadeiro teste chegou: fazer ambos analisarem o ClickUp.
Claude Code:
Na primeira execução, deu erro. Mas a correção foi rápida, em poucos minutos localizei o problema (configuração de validação JWT) e consertei em menos de 4 minutos.
Depois de corrigido, conseguiu coletar informações do ClickUp e de seus concorrentes: Monday, Notion, Asana, Atlassian. O relatório também foi gerado.
Codex:
Encontrou o mesmo erro.
Levou 19 minutos para encontrar o problema.
Depois de corrigido, ainda não funcionou. O blogueiro esperou muito tempo e, no final, desistiu.
VI. Quinta rodada: avaliação de terceiros
O blogueiro convidou o Gemini Pro 3 para avaliar os dois repositórios de código de forma cega. Essa etapa foi bem interessante.
Na segurança do backend: Codex venceu.
O Gemini considerou que sua arquitetura de segurança é mais madura: políticas de segurança em nível de linha (RLS) completas, logs de auditoria imutáveis, e o modelo de autorização é melhor implementado. Isso também confirma a opinião no círculo — para backend e segurança, o Codex realmente tem um conjunto.
Na qualidade do frontend: Claude Code venceu de forma clara.
Integridade do código, clareza lógica e qualidade da implementação da UI são claramente melhores.
O resumo do blogueiro foi direto:
"Você pode me convencer de que o Codex é mais seguro, mas não pode me convencer a usá-lo. Porque a experiência do usuário é muito ruim. Uma ferramenta que não consegue realizar funções básicas, de que adianta ser tão segura?"
VII. Resumo das principais diferenças
Depois de assistir a este teste prático, minha opinião mudou um pouco.
Antes, eu achava que as duas ferramentas tinham suas vantagens e desvantagens, e a escolha dependia do cenário. Agora, eu acho que, se você é um desenvolvedor independente ou precisa validar rapidamente uma ideia ou montar um MVP, a eficiência e confiabilidade do Claude Code são superiores. Tempo é dinheiro; enquanto o Codex te faz a décima pergunta, o Claude Code pode já estar funcionando.
Mas se você está lidando com um backend corporativo e tem requisitos rigorosos de segurança, o Codex vale a pena considerar. Desde que você tenha paciência.

