OpenClaw + Claude Code/Codex: Creare uno Sciame di Sviluppo Personale

3/5/2026
11 min read

OpenClaw + Claude Code/Codex: Creare uno Sciame di Sviluppo Personale

Ciao a tutti, sono Lu Gong.

Recentemente ho visto un tweet su X che mi ha colpito immediatamente. Un sviluppatore indipendente di nome Elvis ha detto che ora non usa più direttamente Claude Code e Codex, ma utilizza OpenClaw come strato di orchestrazione, permettendo a un AI orchestratore chiamato Zoe di gestire un intero sciame di agenti Claude Code e Codex.

I dati di questo tweet sono impressionanti: 4,9 milioni di visualizzazioni, 11.000 mi piace, 1.800 condivisioni.

Dati del tweetAbbiamo scritto su Vibe Coding per oltre quattro mesi, e Claude Code è sempre stato il nostro strumento principale. Ho anche scritto alcuni articoli su collaborazioni tra più agenti e architetture multi-agente in VSCode.

Ma vedendo il modo in cui Elvis utilizza questo sistema, non posso fare a meno di ammirarlo. Una persona, con un sistema di orchestrazione, ha effettuato in media 50 invii di codice al giorno, e nel giorno più intenso ha inviato 94 volte, rispondendo anche a 3 telefonate di clienti, senza mai aprire l'editor.

Non è come se una sola persona stesse facendo il lavoro di un intero team di sviluppo?

Oggi in questo articolo analizzeremo come ci sia riuscito.

OpenClaw non è nuovo per nessuno

Questo piccolo gambero è stato molto popolare da prima del Capodanno. In parole semplici, è un framework open source per agenti AI, con oltre 240.000 stelle su GitHub, e nei giorni scorsi ha ufficialmente superato React, diventando il progetto open source con la crescita di stelle più rapida nella storia di GitHub.

OpenClawIl fondatore Peter Steinberger è uno sviluppatore austriaco, che in precedenza ha fondato PSPDFKit (una società B2B per un framework PDF), e nel 2021 ha ricevuto un investimento di 100 milioni di euro da Insight Partners. A febbraio di quest'anno, Peter ha annunciato di unirsi a OpenAI, e il progetto OpenClaw è stato trasferito a una fondazione open source per la gestione.

OpenClaw non è posizionato come un chatbot, ma come un runtime per agenti AI che gira sui tuoi dispositivi locali. Ha quattro componenti principali: Gateway (gateway, che connette oltre 50 piattaforme di messaggistica), Agent (motore di inferenza), Skills (oltre 5400 plugin), Memory (sistema di memoria).

Ma il modo in cui Elvis utilizza OpenClaw è piuttosto particolare. Lo usa come strato di orchestrazione, specificamente per gestire agenti di codifica come Claude Code e Codex, senza usarlo come assistente generico.

Questa idea è davvero unica.

Perché è necessario uno strato di orchestrazione?

Elvis ha menzionato un punto chiave nel tweet: la finestra di contesto è un gioco a somma zero.

Se ci metti codice, non c'è spazio per il contesto aziendale. Se ci metti la storia dei clienti e i verbali delle riunioni, non c'è spazio per il codice sorgente. Anche il più potente AI non può contenere simultaneamente due tipi di informazioni completamente diverse.

Quindi ha diviso il sistema in due strati.

Lo strato superiore è l'orchestratore OpenClaw Zoe, che gestisce tutto il contesto aziendale, inclusi dati dei clienti, verbali delle riunioni, decisioni storiche, quali soluzioni sono state provate e quali hanno fallito. Queste informazioni sono tutte memorizzate nella libreria di appunti Obsidian di Elvis, e Zoe può leggerle direttamente.

Lo strato inferiore è composto dagli agenti di codifica come Claude Code e Codex, che si occupano solo di codice e scrittura di codice. Quando ogni agente si avvia, Zoe scrive un prompt preciso basato sul contesto aziendale, dicendo loro cosa fare, qual è il contesto e cosa vuole il cliente.

In parole semplici: l'orchestratore è responsabile della comprensione delle esigenze, mentre gli agenti di codifica sono responsabili del lavoro. Ognuno si occupa di ciò che sa fare meglio.

Questa architettura è simile a quella del sistema interno Minions recentemente rivelato da Stripe. Anche i Minions di Stripe sono progettati con agenti di codifica paralleli e uno strato di orchestrazione centralizzato, in grado di unire oltre 1000 PR completamente scritti da AI ogni settimana. Elvis ha detto che ha inavvertitamente costruito un'architettura simile, solo che gira sul suo Mac mini.

Flusso di lavoro di un caso reale

Elvis ha utilizzato un caso reale nel tweet per spiegare il suo flusso di lavoro completo, e io ho riassunto i passaggi chiave.Ha risposto a una chiamata di un cliente, il quale desiderava riutilizzare una configurazione esistente all'interno del team. Dopo la chiamata, ha parlato con Zoe di questa esigenza. Poiché tutti i verbali delle riunioni vengono automaticamente sincronizzati su Obsidian, Zoe sapeva già cosa aveva detto il cliente, quindi non era necessario che Elvis spiegasse ulteriormente. Hanno insieme definito l'ambito delle funzionalità, e la soluzione finale è stata quella di creare un sistema di template.

Poi Zoe ha automaticamente fatto tre cose: ha ricaricato il servizio di sblocco per il cliente (lei ha i permessi API da amministratore), ha estratto la configurazione esistente del cliente dal database di produzione (permessi di sola lettura, l'Agent di codifica non avrà mai questo permesso), e ha poi generato un Codex Agent, con un prompt dettagliato che includeva il contesto aziendale completo.

Ogni Agent ha il proprio worktree indipendente (branch isolato) e sessione tmux. Il comando di avvio è più o meno questo:

# Crea worktree + avvia agent git worktree add ../feat-custom-templates -b feat/custom-templates origin/main cd ../feat-custom-templates && pnpm install tmux new-session -d -s "codex-templates" \ -c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates" \ "$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high Dopo che l'Agent è avviato, c'è un compito pianificato che controlla ogni 10 minuti. Ma non chiederà direttamente all'Agent (sarebbe troppo costoso in termini di token), ma eseguirà uno script Shell deterministico, per controllare se la sessione tmux è ancora attiva, se è stata creata una PR, e se il CI è passato.

Se il CI fallisce, riavvia automaticamente l'Agent, al massimo per 3 volte. Le notifiche vengono inviate solo quando è necessaria un'intervento umano.

Dopo che l'Agent ha completato il compito, crea automaticamente una PR. Ma creare una PR non è sufficiente, Elvis ha definito un insieme di criteri di completamento: creazione della PR, sincronizzazione del branch con main (senza conflitti di merge), CI completamente passato, revisione del codice da parte di tre modelli AI completamente passata, e se ci sono modifiche UI, devono essere allegate delle schermate.

Tre modelli AI per la revisione del codice

La revisione del codice da parte dei tre modelli AI sembra molto solida. Discutiamo un po' le sue valutazioni su questi tre modelli, è piuttosto interessante.

Codex Reviewer, il suo punteggio è il più alto, dicendo che la sua revisione è molto approfondita in termini di casi limite e errori logici, con un basso tasso di falsi positivi.

Gemini Code Assist Reviewer, gratuito, dice che è molto utile, riesce a scoprire vulnerabilità di sicurezza e problemi di scalabilità che altri modelli potrebbero trascurare, e può fornire piani di riparazione specifici.

Claude Code Reviewer, le sue parole esatte sono "praticamente inutile", dicendo che è eccessivamente cauto, pieno di suggerimenti come "considera di aggiungere...", la maggior parte dei quali appartiene a un design eccessivo. A meno che non sia contrassegnato come problema critico, salta direttamente.

Quando ho letto questa parte, sono rimasto un po' sorpreso. Come utente assiduo di Claude Code, ho effettivamente riscontrato situazioni in cui era troppo conservativo nella revisione del codice, ma dire che è praticamente inutile è un po' eccessivo. Tuttavia, questo dimostra anche che la revisione incrociata tra più modelli ha effettivamente valore, i pregiudizi dei diversi modelli si compensano a vicenda.

Dopo che tutte e tre le revisioni sono state approvate, Elvis riceverà una notifica su Telegram. A questo punto, lui guarda principalmente le schermate, per confermare se le modifiche UI sono corrette, molte PR le unisce senza nemmeno guardare il codice. Dice che la sua revisione manuale richiede solo 5-10 minuti.

Proattività di Zoe

Zoe non è solo un'esecutrice. Più interessante del flusso di lavoro stesso è la proattività di Zoe.

Elvis dice che Zoe non aspetta semplicemente di ricevere compiti, ma cerca attivamente lavoro da fare. Al mattino, scansiona i log degli errori di Sentry, scopre 4 nuovi errori e genera automaticamente 4 Agent per risolverli. Dopo la riunione, scansiona i verbali, evidenzia 3 requisiti funzionali menzionati dal cliente, e poi avvia automaticamente 3 Codex Agent. La sera, scansiona i log di Git, avvia Claude Code per aggiornare il changelog e la documentazione per il cliente.

Quando Elvis esce a fare una passeggiata e torna, trova un messaggio su Telegram: 7 PR sono pronte, 3 nuove funzionalità, 4 correzioni di bug. Non è questo l'effetto che ho sempre sperato di creare con un team di sviluppo di una sola persona in OPC?Inoltre, quando l'Agent fallisce, il modo in cui Zoe gestisce la situazione è molto più avanzato di un semplice ripristino. Essa analizza le cause del fallimento in base al contesto aziendale. Il contesto dell'Agent è andato in crash? Ridurrà il campo d'azione, facendo in modo che l'Agent si concentri solo su tre file. L'Agent ha perso la direzione? Correggerà anche questo, informando l'Agent che il cliente desidera X e non Y, allegando le parole esatte della riunione.

Con il passare del tempo, Zoe accumulerà anche esperienza, ricordando quali strutture di prompt funzionano meglio per quali tipi di compiti, scrivendo prompt più precisi la prossima volta.

Questo approccio è in realtà una versione avanzata del Ralph Loop. La logica centrale del Ralph Loop è un ciclo di estrazione del contesto, generazione dell'output, valutazione dei risultati e salvataggio dell'esperienza, ma la maggior parte delle implementazioni utilizza prompt fissi per ogni ciclo. Il sistema di Elvis è diverso, ogni volta che Zoe riprova, adatta dinamicamente il prompt in base alla causa del fallimento, e ha il supporto di un contesto aziendale completo.

Costi e Hardware

Per quanto riguarda i costi, i dati pubblici di Elvis indicano che Claude costa circa 100 dollari al mese, mentre Codex costa circa 90 dollari al mese. Ha anche detto che si può iniziare a provare con 20 dollari.

Questo costo è ovviamente ridicolo rispetto all'assunzione di uno sviluppatore. Ma se consideri che devi anche prendere decisioni sui prodotti, comunicare con i clienti e fare revisioni del codice, sembra più un amplificatore di efficienza, aiutandoti a risparmiare sulle fasi più ripetitive come la codifica e il testing.

Per quanto riguarda l'hardware, Elvis ha menzionato che il suo attuale collo di bottiglia è la RAM. Ogni Agent necessita di un worktree indipendente, ogni worktree ha i propri node_modules, e ogni Agent deve eseguire costruzioni, controlli di tipo e test. Eseguire 5 Agent contemporaneamente significa avere 5 compilatori TypeScript in parallelo, 5 esecutori di test e 5 set di dipendenze.

Il suo Mac mini con 16GB di RAM può eseguire al massimo 4 o 5 Agent contemporaneamente, oltre inizia a scambiare memoria. Così ha acquistato un Mac Studio M4 Max con 128GB di RAM (3500 dollari), con l'intenzione di gestire più Agent in parallelo.

Riflessioni e Problemi Reali

A dire il vero, il sistema di Elvis mi ha colpito molto. Prima consideravo OpenClaw come un giocattolo, mentre per aumentare la produttività mi affidavo a Claude Code. A volte usavo worktree per il parallelismo, ma non ero nemmeno lontano da un livello di orchestrazione sistematica come questo. Dopo aver letto i suoi tweet, sento che il limite dell'AI programming è stato alzato di nuovo.

Recentemente, sto seguendo il suo approccio, pronto a costruire un team di sviluppo completamente automatizzato con OpenClaw. Quindi, nei prossimi giorni pubblicheremo diversi articoli pratici su OpenClaw.

Ci sono alcuni problemi reali di cui vorrei avvisare tutti.

Il presupposto di questo sistema è che tu abbia un prodotto chiaro, esigenze dei clienti definite e una pipeline CI/CD ben strutturata. Elvis sta creando un vero prodotto B2B SaaS, con clienti, entrate e un ambiente di produzione. Se sei ancora nella fase di scrittura di demo o di apprendimento, il ROI di questa architettura potrebbe non essere vantaggioso.

Inoltre, attualmente ci sono anche problemi di sicurezza con OpenClaw. Secondo informazioni pubbliche, sono stati segnalati diversi CVE ad alto rischio, e sono stati trovati 341 plugin di comunità malevoli con comportamenti di furto di dati. Quando distribuisci OpenClaw, è fondamentale gestire bene l'isolamento e il controllo degli accessi. Questo è anche il motivo per cui non ho mai distribuito OpenClaw sulla mia macchina principale.

Un'altra cosa, Elvis ha dato una valutazione piuttosto bassa alla revisione del codice di Claude Code nei suoi tweet, ma recentemente Claude Code ha appena lanciato la funzione Agent Teams (collaborazione multi-Agent integrata ufficialmente), e Anthropic sta anche lavorando in questa direzione.

Tuttavia, al di là di questi dettagli, l'architettura di Elvis che combina il livello di orchestrazione e il livello di esecuzione merita sicuramente attenzione. Il gioco a somma zero della finestra di contesto è una vera e propria restrizione, e risolvere questo problema con un'architettura a strati, permettendo a diverse AI di svolgere i propri compiti, è un approccio che personalmente considero corretto.

WeChat dell'autore Gli amici interessati a questo argomento possono direttamente consultare il tweet originale di Elvis, che ha un'alta densità informativa:...
Published in Technology

You Might Also Like