OpenClaw + Claude Code/Codex: Criando um Agregado de Desenvolvimento Pessoal
OpenClaw + Claude Code/Codex: Criando um Agregado de Desenvolvimento Pessoal
Olá a todos, eu sou o Lu Gong.
Recentemente, vi um tweet no X que me chamou a atenção instantaneamente. Um desenvolvedor independente chamado Elvis disse que agora não usa mais diretamente o Claude Code e o Codex, mas sim o OpenClaw como camada de orquestração, permitindo que uma IA chamada Zoe gerencie todo um Agregado de Agentes do Claude Code e Codex.
Os dados desse tweet também são impressionantes: 4,9 milhões de visualizações, 11 mil curtidas e 1800 retweets.
Nós escrevemos sobre Vibe Coding por mais de quatro meses, e o Claude Code sempre foi nossa ferramenta principal. Eu também escrevi alguns artigos sobre colaboração entre múltiplos agentes e arquitetura de múltiplos agentes no VSCode.
Mas ao ver a abordagem do Elvis, só posso chamá-lo de especialista. Uma pessoa, usando um sistema de orquestração, fez uma média de 50 envios de código por dia, e no dia mais intenso, enviou 94 vezes, além de atender 3 chamadas de clientes, sem abrir o editor uma única vez.
Isso não é como se uma pessoa estivesse atuando como uma equipe de desenvolvimento?
Hoje, este artigo vai analisar como ele conseguiu isso.
OpenClaw não é novidade para ninguém
Este pequeno camarão está em alta desde o Ano Novo Chinês. Simplificando, é uma estrutura de Agente de IA de código aberto, que já ultrapassou 240 mil estrelas no GitHub e, há dois dias, oficialmente superou o React, tornando-se o projeto de código aberto com o crescimento mais rápido de estrelas na história do GitHub.
O fundador Peter Steinberger é um desenvolvedor austríaco, que anteriormente fundou a PSPDFKit (uma empresa B2B de estrutura para PDF), e em 2021 recebeu um investimento de 100 milhões de euros da Insight Partners. Em fevereiro deste ano, Peter anunciou sua entrada na OpenAI, e o projeto OpenClaw foi transferido para a operação de uma fundação de código aberto.
A posição do OpenClaw não é a de um chatbot, mas sim um tempo de execução de Agente de IA que roda em seu dispositivo local. Ele possui quatro componentes principais: Gateway (conexão com mais de 50 plataformas de mensagens), Agent (motor de inferência), Skills (mais de 5400 plugins) e Memory (sistema de memória).
Mas a maneira como Elvis usa o OpenClaw é bastante especial. Ele o utiliza como uma camada de orquestração, especificamente para gerenciar os Agentes de codificação do Claude Code e Codex, sem usá-lo como um assistente genérico.
Essa abordagem realmente é incomum.
Por que precisamos de uma camada de orquestração?
Elvis mencionou um ponto crucial em seu tweet: a janela de contexto é um jogo de soma zero.
Se você coloca código nela, não há espaço para o contexto de negócios. Se você insere o histórico de clientes e atas de reuniões, não há espaço para o repositório de código. Mesmo o AI mais poderoso não consegue armazenar simultaneamente esses dois tipos de informações completamente diferentes.
Portanto, ele dividiu o sistema em duas camadas.
A camada superior é a orquestradora Zoe do OpenClaw, que controla todo o contexto de negócios, incluindo dados de clientes, atas de reuniões, decisões históricas, quais soluções foram testadas e quais falharam. Todas essas informações estão armazenadas no repositório de notas Obsidian de Elvis, que a Zoe pode acessar diretamente.
A camada inferior é composta pelos Agentes de codificação do Claude Code e Codex, que apenas lidam com código e se concentram em escrever código. Cada vez que um Agente é iniciado, Zoe escreve um prompt preciso com base no contexto de negócios, informando-o sobre o que fazer, qual é o contexto e o que o cliente deseja.
Simplificando: a orquestradora é responsável por entender as necessidades, enquanto os Agentes de codificação são responsáveis por executar o trabalho. Cada um faz o que sabe fazer melhor.
Essa arquitetura é semelhante ao sistema interno Minions que a Stripe divulgou recentemente. Os Minions da Stripe também são projetados com Agentes de codificação paralelos e uma camada de orquestração centralizada, conseguindo mesclar mais de 1000 PRs totalmente escritos por IA a cada semana. Elvis disse que ele acidentalmente montou uma arquitetura semelhante, mas que roda em seu próprio Mac mini.
Fluxo de trabalho de um caso real
Elvis usou um caso real em seu tweet para explicar seu fluxo de trabalho completo, e eu vou resumir os pontos principais.Ele atendeu uma ligação de um cliente, que queria reutilizar uma configuração existente dentro da equipe. Após a chamada, ele conversou com Zoe sobre essa demanda. Como todas as atas de reunião são sincronizadas automaticamente com o Obsidian, Zoe já sabia o que o cliente havia dito, não precisando que Elvis explicasse mais. Juntos, eles definiram o escopo da funcionalidade, e a solução final foi criar um sistema de templates.
Então, Zoe fez automaticamente três coisas: recarregou o serviço de desbloqueio para o cliente (ela tem permissões de API de administrador), puxou a configuração existente do cliente do banco de dados de produção (permissão somente leitura, o Agent de codificação nunca terá essa permissão), e então gerou um Codex Agent, com um prompt detalhado que inclui todo o contexto de negócios.
Cada Agent tem sua própria worktree independente (branch isolada) e sessão tmux. O comando de inicialização é mais ou menos assim:
# Criar worktree + iniciar agent git worktree add ../feat-custom-templates -b feat/custom-templates origin/main cd ../feat-custom-templates && pnpm install tmux new-session -d -s "codex-templates" \ -c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates" \ "$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high Após o Agent ser iniciado, há uma tarefa agendada que verifica a cada 10 minutos. Mas ele não pergunta diretamente ao Agent (isso consumiria muitos tokens), mas executa um script Shell determinístico, verificando se a sessão tmux ainda está ativa, se há PRs criadas e se o CI passou.
Se o CI falhar, o Agent é reiniciado automaticamente, com no máximo 3 tentativas. Notificações só são enviadas quando é necessária intervenção manual.
Após concluir a tarefa, o Agent cria automaticamente um PR. Mas apenas criar o PR não é o fim; Elvis definiu um conjunto de critérios de conclusão: criação do PR, sincronização da branch com a main (sem conflitos de mesclagem), CI totalmente aprovado, revisão de código de três modelos de IA totalmente aprovada, e se houver alterações na UI, deve incluir capturas de tela.
Três Modelos de IA Fazendo Revisão de Código
Três modelos de IA fazendo revisão de código parecem muito sólidos. Ele comentou sobre sua avaliação desses três modelos, o que é bastante interessante.
Codex Reviewer, ele avaliou como o melhor, dizendo que sua revisão em casos de borda e erros lógicos é muito completa, com uma taxa de falsos positivos muito baixa.
Gemini Code Assist Reviewer, que é gratuito, ele disse que é muito prático, capaz de identificar vulnerabilidades de segurança e problemas de escalabilidade que outros modelos podem ter perdido, além de fornecer soluções específicas de correção.
Claude Code Reviewer, suas palavras foram "basicamente inútil", dizendo que é excessivamente cauteloso, cheio de sugestões como "considere adicionar...", a maioria delas pertencendo a um design excessivo. A menos que marcado como um problema crítico, ele simplesmente ignora.
Fiquei um pouco surpreso ao ler isso. Como um usuário frequente do Claude Code, realmente encontrei situações em que ele foi excessivamente conservador na revisão de código, mas a avaliação de "basicamente inútil" ainda parece um pouco exagerada. No entanto, isso também indica que a revisão cruzada entre múltiplos modelos realmente tem valor, já que os preconceitos de diferentes modelos se complementam.
Somente após todos os três revisores aprovarem, Elvis recebe uma notificação no Telegram. Até esse ponto, ele principalmente verifica as capturas de tela, confirmando se as alterações na UI estão corretas; muitos PRs ele mescla diretamente sem olhar o código. Ele disse que sua revisão manual leva apenas de 5 a 10 minutos.
A Proatividade de Zoe
Zoe não é apenas uma executora. O que é mais interessante do que o fluxo de trabalho em si é a proatividade de Zoe.
Elvis disse que Zoe não espera que as tarefas sejam atribuídas a ela; ela procura ativamente trabalho. De manhã, ela escaneia os logs de erro do Sentry, encontra 4 novos erros e gera automaticamente 4 Agents para consertá-los. Após a reunião, ela escaneia as atas, marca 3 demandas de funcionalidades mencionadas pelo cliente e então inicia automaticamente 3 Codex Agents. À noite, ela escaneia os logs do Git e inicia o Claude Code para atualizar o changelog e a documentação do cliente.
Quando Elvis sai para dar uma volta e volta, há uma mensagem no Telegram: 7 PRs estão prontos, 3 novas funcionalidades, 4 correções de bugs. Isso não é exatamente o que eu sempre esperei criar como o efeito de uma equipe de desenvolvimento de uma empresa unipessoal OPC?E quando o Agent falha, a maneira como Zoe lida com isso é muito mais avançada do que uma simples nova tentativa. Ela analisa a causa da falha em conjunto com o contexto do negócio. O contexto do Agent estourou? Ela vai restringir o escopo, fazendo com que o Agent se concentre apenas em três arquivos. O Agent se desviou do caminho? Ela também vai corrigir, dizendo ao Agent que o cliente quer X e não Y, e anexando as palavras exatas da reunião.
Com o passar do tempo, Zoe também acumulará experiência, lembrando quais estruturas de prompt funcionam bem para quais tipos de tarefas, permitindo que ela escreva prompts mais precisos na próxima vez.
Essa ideia é, na verdade, uma versão aprimorada do Ralph Loop. A lógica central do Ralph Loop é um ciclo de puxar contexto, gerar saída, avaliar resultados e salvar experiências, mas a maioria das implementações usa prompts fixos a cada ciclo. O sistema de Elvis é diferente; a cada nova tentativa, Zoe ajusta dinamicamente o prompt com base na causa da falha, além de contar com um contexto de negócios completo.
Custos e Hardware
Em termos de custos, os dados públicos de Elvis indicam que o Claude custa cerca de 100 dólares por mês, enquanto o Codex custa cerca de 90 dólares por mês. Ele também mencionou que você pode começar com 20 dólares para testar.
Esse custo é, sem dúvida, muito mais barato do que contratar um desenvolvedor. Mas se você considerar que ainda precisa tomar decisões sobre o produto, comunicar-se com os clientes e revisar o código, isso se torna mais como um amplificador de eficiência, ajudando a economizar nas etapas mais repetitivas de codificação e testes.
Em relação ao hardware, Elvis mencionou que seu maior gargalo atualmente é a RAM. Cada Agent precisa de uma worktree independente, cada worktree tem seus próprios node_modules, e cada Agent precisa executar construção, verificação de tipos e testes. Rodar 5 Agents ao mesmo tempo significa 5 compiladores TypeScript paralelos, 5 executores de testes e 5 conjuntos de dependências.
Seu Mac mini com 16GB de RAM consegue rodar no máximo 4 a 5 Agents ao mesmo tempo; mais do que isso começa a causar troca de memória. Portanto, ele comprou um Mac Studio M4 Max com 128GB de RAM (3500 dólares), planejando usá-lo para suportar mais Agents em concorrência.
Resumo e Problemas Reais
Para ser honesto, o sistema de Elvis realmente me impressionou. Eu sempre considerei o OpenClaw como um brinquedo, e para aumentar a produtividade, eu dependia do Claude Code independente. Ocasionalmente, usava worktree para paralelismo, mas estava longe de alcançar esse nível de organização sistemática. Depois de ler seus tweets, sinto que o teto para programação com IA foi elevado novamente.
Recentemente, estou seguindo seu raciocínio e planejando usar o OpenClaw para criar uma equipe de desenvolvimento totalmente automatizada. Portanto, em breve publicaremos vários artigos práticos sobre o OpenClaw.
Há alguns problemas reais que preciso alertar a todos.
O pressuposto deste sistema é que você tenha um produto claro, necessidades de clientes definidas e uma linha de CI/CD bem estruturada. Elvis está criando um produto B2B SaaS real, com clientes, receita e um ambiente de produção. Se você ainda está escrevendo demos ou está em fase de aprendizado, o ROI dessa arquitetura pode não ser muito vantajoso.
Além disso, os problemas de segurança do OpenClaw também precisam ser considerados. De acordo com informações públicas, já foram divulgados vários CVEs de alto risco, e 341 plugins maliciosos da comunidade foram descobertos com comportamentos de roubo de dados. Ao implantar o OpenClaw, é essencial garantir o isolamento e o controle de permissões. Essa é também a razão pela qual eu ainda não implantei o OpenClaw em minha máquina principal.
Outro ponto é que Elvis fez uma avaliação um tanto negativa da revisão de código do Claude Code em seus tweets, mas recentemente o Claude Code lançou a funcionalidade Agent Teams (colaboração de múltiplos Agents embutida oficialmente), e a Anthropic também está investindo nesse sentido.
No entanto, deixando esses detalhes de lado, a abordagem de Elvis com uma camada de orquestração e uma camada de execução realmente merece atenção. O jogo de soma zero da janela de contexto é uma restrição real, e usar uma arquitetura em camadas para resolver esse problema, permitindo que diferentes IAs desempenhem suas funções, é uma direção que eu pessoalmente considero correta.
Para amigos interessados neste tópico, você pode conferir diretamente o tweet original de Elvis, que tem uma alta densidade de informações:...
