OpenClaw + Claude Code/Codex: Criando um Agregado de Desenvolvimento Pessoal
OpenClaw + Claude Code/Codex: Criando um Agregado de Desenvolvimento Pessoal
Olá a todos, eu sou o Lu Gong.
Recentemente, vi um tweet no X que me chamou a atenção instantaneamente. Um desenvolvedor independente chamado Elvis disse que agora não usa mais diretamente o Claude Code e o Codex, mas sim o OpenClaw como camada de orquestração, permitindo que uma IA chamada Zoe gerencie todo um Agregado de Agentes do Claude Code e Codex.
Os dados desse tweet também são impressionantes, com 4,9 milhões de visualizações, 11 mil curtidas e 1800 retweets.
Escrevemos sobre Vibe Coding por mais de quatro meses, e o Claude Code sempre foi nossa principal ferramenta. Eu também escrevi alguns artigos sobre colaboração entre múltiplos agentes e arquitetura de múltiplos agentes no VSCode.
Mas ao ver a abordagem do Elvis, só posso chamá-lo de especialista. Uma pessoa, usando um sistema de orquestração, fez uma média de 50 envios de código por dia, e no dia mais intenso enviou 94 vezes, além de atender 3 chamadas de clientes, sem abrir o editor uma única vez.
Isso não é como se uma pessoa estivesse funcionando como uma equipe de desenvolvimento?
Hoje, este artigo vai analisar como ele conseguiu isso.
OpenClaw não é novidade para ninguém
Este pequeno lagostim tem estado em alta desde o Ano Novo. Simplificando, é um framework de Agente de IA de código aberto, que já ultrapassou 240 mil estrelas no GitHub, e há dois dias superou o React, tornando-se o projeto de código aberto com o crescimento mais rápido de estrelas na história do GitHub.
O fundador Peter Steinberger é um desenvolvedor austríaco, que anteriormente fundou a PSPDFKit (uma empresa B2B de framework para PDF), e em 2021 recebeu um investimento de 100 milhões de euros da Insight Partners. Em fevereiro deste ano, Peter anunciou sua adesão à OpenAI, e o projeto OpenClaw foi transferido para uma fundação de código aberto.
A posição do OpenClaw não é a de um chatbot, mas sim um runtime de Agente de IA que roda em seu dispositivo local. Ele possui quatro componentes principais: Gateway (conexão com mais de 50 plataformas de mensagens), Agent (motor de inferência), Skills (mais de 5400 plugins) e Memory (sistema de memória).
Mas a maneira como Elvis usa o OpenClaw é bastante especial. Ele o utiliza como uma camada de orquestração, especificamente para gerenciar os Agentes de codificação do Claude Code e Codex, sem usá-lo como um assistente genérico.
Essa abordagem é realmente incomum.
Por que precisamos de uma camada de orquestração?
Elvis mencionou um ponto crucial em seu tweet: a janela de contexto é um jogo de soma zero.
Se você colocar código nela, não há espaço para o contexto de negócios. Se você colocar o histórico de clientes e atas de reuniões, não há espaço para o repositório de código. Mesmo que um único IA seja muito poderoso, ele não pode conter simultaneamente esses dois tipos de informações completamente diferentes.
Portanto, ele dividiu o sistema em duas camadas.
A camada superior é o orquestrador OpenClaw, Zoe, que possui todo o contexto de negócios, incluindo dados de clientes, atas de reuniões, decisões históricas, quais soluções foram testadas e quais falharam. Essas informações estão todas no repositório de notas Obsidian de Elvis, e Zoe pode acessá-las diretamente.
A camada inferior são os Agentes de codificação do Claude Code e Codex, que só veem código e se concentram em escrever código. Cada vez que um Agente é iniciado, Zoe escreve um prompt preciso com base no contexto de negócios, informando-o sobre o que fazer, qual é o contexto e o que o cliente deseja.
Simplificando: o orquestrador é responsável por entender as necessidades, e os Agentes de codificação são responsáveis por executar o trabalho. Cada um faz o que sabe fazer melhor.
Essa arquitetura é semelhante ao sistema interno Minions que a Stripe divulgou recentemente. Os Minions da Stripe também são um design de Agentes de codificação paralelos com uma camada de orquestração centralizada, capaz de mesclar mais de 1000 PRs totalmente escritos por IA a cada semana. Elvis disse que ele acidentalmente montou uma arquitetura semelhante, apenas rodando em seu Mac mini.
Fluxo de trabalho de um caso real
Elvis usou um caso real em seu tweet para explicar seu fluxo de trabalho completo, e eu vou resumir os pontos principais.Ele atendeu uma ligação de um cliente que queria reutilizar uma configuração existente dentro da equipe. Após a chamada, ele conversou com Zoe sobre essa necessidade. Como todas as atas de reunião são sincronizadas automaticamente com o Obsidian, Zoe já sabia o que o cliente havia dito, não precisando que Elvis explicasse mais. Juntos, eles definiram o escopo da funcionalidade, e a solução final foi criar um sistema de templates.
Então, Zoe fez automaticamente três coisas: recarregou o serviço de desbloqueio para o cliente (ela tem permissão de API de administrador), puxou a configuração existente do cliente do banco de dados de produção (permissão somente leitura, o Agent de codificação nunca terá essa permissão), e gerou um Codex Agent, com um prompt detalhado que inclui todo o contexto de negócios.
Cada Agent tem sua própria worktree independente (branch isolada) e sessão tmux. O comando de inicialização é mais ou menos assim:
# Criar worktree + iniciar agent git worktree add ../feat-custom-templates -b feat/custom-templates origin/main cd ../feat-custom-templates && pnpm install tmux new-session -d -s "codex-templates" \ -c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates" \ "$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high Após o Agent ser iniciado, há uma tarefa agendada que verifica a cada 10 minutos. Mas ele não pergunta diretamente ao Agent (isso consumiria muitos tokens), mas executa um script Shell determinístico, verificando se a sessão tmux ainda está ativa, se há PRs criadas e se o CI passou.
Se o CI falhar, o Agent é reiniciado automaticamente, com no máximo 3 tentativas. Notificações são enviadas apenas quando a intervenção humana é necessária.
Após concluir a tarefa, o Agent cria automaticamente uma PR. Mas apenas criar a PR não é o fim; Elvis definiu um conjunto de critérios de conclusão: PR criada, branch sincronizada com main (sem conflitos de mesclagem), CI totalmente aprovado, revisão de código de três modelos de IA aprovada, e se houver alterações na UI, deve incluir capturas de tela.
Três Modelos de IA Fazendo Revisão de Código
Três modelos de IA fazendo revisão de código parecem muito sólidos. Conversando sobre sua avaliação desses três modelos, é bem interessante.
Codex Reviewer, ele avaliou como o melhor, dizendo que sua revisão em casos de borda e erros lógicos é muito completa, com uma taxa de falsos positivos muito baixa.
Gemini Code Assist Reviewer, que é gratuito, ele disse que é muito útil, capaz de identificar riscos de segurança e problemas de escalabilidade que outros modelos podem ter perdido, além de fornecer soluções de correção específicas.
Claude Code Reviewer, suas palavras foram "basicamente inútil", dizendo que é excessivamente cauteloso, cheio de sugestões como "considere adicionar...", a maioria delas pertencendo a um design excessivo. A menos que marcado como um problema crítico, ele simplesmente ignora.
Fiquei um pouco surpreso ao ler isso. Como um usuário frequente do Claude Code, realmente encontrei situações em que ele foi excessivamente conservador na revisão de código, mas a avaliação de "basicamente inútil" ainda parece um pouco exagerada. No entanto, isso também indica que a revisão cruzada entre múltiplos modelos realmente tem valor, pois os preconceitos diferentes dos modelos se complementam.
Após a aprovação de todas as revisões, Elvis só então recebe uma notificação no Telegram. Até esse ponto, ele se concentra principalmente nas capturas de tela, confirmando se as alterações na UI estão corretas; muitas PRs ele mescla sem olhar o código. Ele disse que sua revisão manual leva apenas de 5 a 10 minutos.
A Proatividade de Zoe
Zoe não é apenas uma executora. Mais interessante do que o fluxo de trabalho em si é a proatividade de Zoe.
Elvis disse que Zoe não espera que as tarefas sejam atribuídas a ela; ela procura ativamente trabalho. De manhã, ela escaneia os logs de erro do Sentry, descobre 4 novos erros e gera automaticamente 4 Agents para corrigir. Após a reunião, ela escaneia as atas e marca 3 necessidades funcionais mencionadas pelo cliente, então inicia automaticamente 3 Codex Agents. À noite, ela escaneia os logs do Git e inicia o Claude Code para atualizar o changelog e a documentação do cliente.
Quando Elvis sai para dar uma volta e volta, encontra uma mensagem no Telegram: 7 PRs estão prontas, 3 novas funcionalidades, 4 correções de bugs. Isso não é exatamente o que eu sempre esperei criar como o efeito de uma equipe de desenvolvimento de uma empresa unipessoal OPC?E quando o Agent falha, a forma como Zoe lida com isso é muito mais avançada do que uma simples nova tentativa. Ela analisa a causa da falha combinando o contexto de negócios. O contexto do Agent estourou? Ela vai restringir o escopo, fazendo com que o Agent se concentre apenas em três arquivos. O Agent se desviou do caminho? Ela também vai corrigir, informando ao Agent que o cliente quer X e não Y, e anexando as palavras exatas da reunião.
Com o passar do tempo, Zoe também acumulará experiência, lembrando quais estruturas de prompt funcionam melhor para quais tipos de tarefas, permitindo que ela escreva prompts mais precisos na próxima vez.
Essa ideia é, na verdade, uma versão aprimorada do Ralph Loop. A lógica central do Ralph Loop é um ciclo de puxar contexto, gerar saída, avaliar resultados e salvar experiências, mas a maioria das implementações usa prompts fixos para cada ciclo. O sistema de Elvis é diferente; a cada nova tentativa, Zoe ajusta dinamicamente o prompt com base na causa da falha, e tem o suporte de um contexto de negócios completo.
Custos e Hardware
Em termos de custos, os dados públicos de Elvis indicam que o Claude custa cerca de 100 dólares por mês, e o Codex cerca de 90 dólares por mês. Ele também mencionou que você pode começar a experimentar com apenas 20 dólares.
Esse custo é, sem dúvida, muito mais barato do que contratar um desenvolvedor. Mas se você considerar que ainda precisa tomar decisões sobre o produto, comunicar-se com os clientes e revisar códigos, isso se assemelha mais a um amplificador de eficiência, ajudando a economizar nas etapas mais repetitivas de codificação e testes.
Em termos de hardware, Elvis mencionou que seu maior gargalo atualmente é a RAM. Cada Agent precisa de uma worktree independente, cada worktree tem seus próprios node_modules, e cada Agent precisa executar construção, verificação de tipos e testes. Executar 5 Agents simultaneamente significa 5 compiladores TypeScript paralelos, 5 executores de testes e 5 conjuntos de dependências.
Seu Mac mini com 16GB de RAM consegue rodar no máximo 4 a 5 Agents ao mesmo tempo; mais do que isso começa a causar troca de memória. Portanto, ele comprou um Mac Studio M4 Max com 128GB de RAM (3500 dólares), planejando usá-lo para suportar mais Agents em concorrência.
Resumo e Problemas Reais
Para ser honesto, o sistema de Elvis realmente me impressionou. Eu sempre considerei o OpenClaw como um brinquedo, e para aumentar a produtividade, eu dependia do Claude Code independente. Ocasionalmente, usava worktree para paralelismo, mas estava longe de alcançar esse nível de orquestração sistemática. Depois de ler seus tweets, sinto que o teto para programação com IA foi elevado novamente.
Recentemente, estou seguindo seu raciocínio e planejando usar o OpenClaw para criar uma equipe de desenvolvimento totalmente automatizada de uma pessoa. Portanto, em breve publicaremos vários artigos práticos sobre o OpenClaw.
Há alguns problemas reais que preciso alertar a todos.
A premissa deste sistema é que você deve ter um produto claro, necessidades de clientes definidas e um pipeline CI/CD bem estruturado. Elvis está criando um produto B2B SaaS real, com clientes, receita e um ambiente de produção. Se você ainda está escrevendo demos ou na fase de aprendizado, o ROI dessa arquitetura pode não ser muito vantajoso.
Além disso, os problemas de segurança do OpenClaw também precisam ser considerados. De acordo com informações públicas, já foram divulgados vários CVEs de alto risco, e 341 plugins maliciosos da comunidade foram encontrados com comportamentos de roubo de dados. Ao implantar o OpenClaw, o isolamento e o controle de permissões devem ser bem feitos. Essa é também a razão pela qual ainda não implantei o OpenClaw em minha máquina principal.
Outro ponto, Elvis fez uma avaliação baixa da revisão de código do Claude Code em seus tweets, mas recentemente o Claude Code lançou a funcionalidade Agent Teams (colaboração de múltiplos Agents embutida oficialmente), e a Anthropic também está se esforçando nessa direção.
No entanto, deixando esses detalhes de lado, a abordagem de Elvis de ter uma camada de orquestração e uma camada de execução realmente merece atenção. O jogo de soma zero da janela de contexto é uma restrição real, e usar uma arquitetura em camadas para resolver esse problema, permitindo que diferentes IAs desempenhem suas funções, é uma direção que eu pessoalmente considero correta.
Para aqueles interessados neste tópico, você pode conferir diretamente o tweet original de Elvis, que tem uma alta densidade de informações:...
