OpenClaw + Claude Code/Codex: Crearea unui Agent Swarm pentru dezvoltare personală
OpenClaw + Claude Code/Codex: Crearea unui Agent Swarm pentru dezvoltare personală
Bună ziua tuturor, sunt Lu Gong.
Recent, am dat peste un tweet pe X care m-a atras instantaneu. Un dezvoltator independent pe nume Elvis a spus că nu mai folosește direct Claude Code și Codex, ci a început să folosească OpenClaw ca strat de orchestrare, lăsând un AI orchestrator pe nume Zoe să gestioneze o întreagă echipă de agenți Claude Code și Codex.
Datele acestui tweet sunt de-a dreptul impresionante, cu 4,9 milioane de vizualizări, 11.000 de aprecieri și 1.800 de redistribuiri.
Am scris despre Vibe Coding timp de peste patru luni, iar Claude Code a fost întotdeauna instrumentul principal. Am scris anterior și despre colaborarea între agenți multipli, arhitectura multi-agent în VSCode și alte articole similare.
Dar văzând metoda lui Elvis, nu pot decât să-l consider un expert. O persoană, folosind un sistem de orchestrare, a realizat în medie 50 de trimiteri de cod pe zi, iar într-o zi a trimis 94 de coduri, primind în același timp 3 apeluri de la clienți, fără să deschidă editorul niciodată.
Nu este asta ca și cum o persoană ar acționa ca o întreagă echipă de dezvoltare?
Astăzi, acest articol va analiza cum a reușit el să facă asta.
OpenClaw nu este o noutate pentru nimeni
Această mică racă a fost populară de la Anul Nou Chinezesc până acum. Pe scurt, este un cadru AI Agent open-source, care pe GitHub a depășit deja 240.000 de stele și, în urmă cu două zile, a depășit oficial React, devenind proiectul open-source cu cea mai rapidă creștere a stelelor din istoria GitHub.
Fondatorul Peter Steinberger este un dezvoltator din Austria, care a fondat anterior PSPDFKit (o companie B2B pentru un cadru PDF), și în 2021 a obținut o investiție de 100 de milioane de euro de la Insight Partners. În februarie, Peter a anunțat că s-a alăturat OpenAI, iar proiectul OpenClaw a fost transferat unei fundații open-source pentru operare.
OpenClaw nu este un chatbot, ci un runtime AI Agent care rulează pe dispozitivele tale locale. Are patru componente esențiale: Gateway (poartă, conectând peste 50 de platforme de mesagerie), Agent (motor de inferență), Skills (peste 5400 de pluginuri), Memory (sistem de memorie).
Dar modul în care Elvis folosește OpenClaw este destul de special. El îl folosește pur și simplu ca strat de orchestrare, destinat exclusiv gestionării agenților de codare Claude Code și Codex, fără a-l folosi ca asistent general.
Această idee este cu adevărat neobișnuită.
De ce avem nevoie de un strat de orchestrare?
Elvis a menționat un punct cheie în tweet-ul său: fereastra de context este un joc cu sumă zero.
Dacă umpli fereastra cu cod, nu mai ai spațiu pentru contextul de afaceri. Dacă umpli fereastra cu istoricul clienților și notele întâlnirilor, nu mai ai spațiu pentru biblioteca de coduri. Chiar și cel mai puternic AI nu poate gestiona simultan aceste două tipuri complet diferite de informații.
Așadar, el a împărțit sistemul în două straturi.
Stratul superior este orchestratorul OpenClaw, Zoe, care deține tot contextul de afaceri, inclusiv datele clienților, notele întâlnirilor, deciziile anterioare, ce soluții au fost testate și care au eșuat. Toate aceste informații sunt stocate în biblioteca de note Obsidian a lui Elvis, iar Zoe le poate citi direct.
Stratul inferior este reprezentat de agenții de codare Claude Code și Codex, care se concentrează doar pe cod, doar pe scrierea codului. Fiecare agent, atunci când este activat, primește de la Zoe un prompt precis bazat pe contextul de afaceri, spunându-i ce să facă, care este fundalul și ce dorește clientul.
Pe scurt: orchestratorul se ocupă de înțelegerea cerințelor, agenții de codare se ocupă de muncă. Fiecare își face treaba în domeniul său de expertiză.
Această arhitectură este similară cu sistemul intern Minions pe care Stripe l-a făcut public recent. Minions de la Stripe este, de asemenea, un design cu agenți de codare paralele și un strat de orchestrare centralizat, capabil să integreze peste 1000 de PR-uri complet scrise de AI în fiecare săptămână. Elvis spune că a creat din întâmplare o arhitectură similară, doar că rulează pe propriul său Mac mini.
Flux de lucru real
Elvis a folosit un caz real în tweet-ul său pentru a explica fluxul său de lucru complet, iar eu voi rezuma etapele esențiale.El a răspuns la un apel de la un client, care dorea să reutilizeze configurațiile existente în cadrul echipei. După încheierea apelului, a discutat cu Zoe despre această cerință. Deoarece toate notele de întâlnire se sincronizează automat cu Obsidian, Zoe știa deja ce a spus clientul, așa că Elvis nu a fost nevoit să explice suplimentar. Împreună au stabilit domeniul de funcționalitate, iar soluția finală a fost să creeze un sistem de șabloane.
Apoi, Zoe a realizat automat trei lucruri: a reîncărcat serviciul de deblocare pentru client (ea are permisiuni API de administrator), a extras configurația existentă a clientului din baza de date de producție (permisiune de citire, Agentul de codare nu va avea niciodată această permisiune), apoi a generat un Agent Codex, cu un prompt detaliat care conține contextul de afaceri complet.
Fiecare Agent are propriul său worktree (ramură izolată) și sesiune tmux. Comanda de pornire arată cam așa:
# Creați worktree + spawn agent git worktree add ../feat-custom-templates -b feat/custom-templates origin/main cd ../feat-custom-templates && pnpm install tmux new-session -d -s "codex-templates" \ -c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates" \ "$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex highDupă ce Agentul a fost pornit, există o sarcină programată care verifică la fiecare 10 minute. Dar nu va întreba direct Agentul (asta ar consuma prea multe token-uri), ci va rula un script Shell determinist, verificând dacă sesiunea tmux este încă activă, dacă a fost creat un PR și dacă CI a trecut.
Dacă CI a eșuat, Agentul se repornește automat, cu un maximum de 3 încercări. Notificările sunt trimise doar atunci când este necesară intervenția umană.
După ce Agentul finalizează sarcina, va crea automat un PR. Dar crearea PR-ului nu este totul, Elvis a definit un set de standarde de finalizare: crearea PR-ului, sincronizarea ramurii cu main (fără conflicte de fuziune), CI să treacă toate testele, revizuirea codului de către cele trei modele AI să fie completă, iar dacă există modificări UI, trebuie să fie atașate capturi de ecran.
Trei modele AI pentru revizuirea codului
Revizuirea codului de către cele trei modele AI pare foarte stabilă. Discutând despre evaluarea sa asupra acestor trei modele, este destul de interesant.
Codex Reviewer, el l-a evaluat cel mai bine, spunând că revizuirea sa este foarte completă în ceea ce privește cazurile limită și erorile logice, cu o rată de fals pozitiv foarte scăzută.
Gemini Code Assist Reviewer, gratuit, el a spus că este foarte util, putând descoperi problemele de securitate și scalabilitate pe care alte modele le-au omis, oferind în același timp soluții de remediere specifice.
Claude Code Reviewer, cuvintele sale exacte au fost "practic inutil", spunând că este prea precaut, plin de sugestii de genul "considerați adăugarea...", majoritatea fiind considerate proiectare excesivă. Cu excepția cazurilor marcate ca probleme critice, el le sărea pur și simplu.
Când am citit această parte, am fost puțin surprins. Fiind un utilizator frecvent al Claude Code, am întâmpinat și eu situații în care era prea conservator în revizuirea codului, dar evaluarea "practic inutil" mi se pare puțin exagerată. Totuși, aceasta subliniază, de asemenea, valoarea revizuirii încrucișate între modele, prejudecățile diferitelor modele se completează reciproc.
După ce toate cele trei revizuiri au fost aprobate, Elvis va primi o notificare pe Telegram. Până la acest punct, el se uită în principal la capturi de ecran, pentru a confirma dacă modificările UI sunt corecte, multe PR-uri le fuzionează fără să se uite la cod. El spune că revizuirea sa manuală durează doar 5 până la 10 minute.
Proactivitatea lui Zoe
Zoe nu este doar un executor. Mai interesant decât fluxul de lucru în sine este proactivitatea lui Zoe.
Elvis spune că Zoe nu așteaptă să i se aloce sarcini, ci caută activ de lucru. Dimineața, scanează jurnalele de erori Sentry, descoperind 4 erori noi, generând automat 4 Agenți pentru a le remedia. După întâlnire, scanează notele de întâlnire, marcând cele 3 cerințe funcționale menționate de client, apoi pornește automat 3 Agenți Codex. Seara, scanează jurnalele Git, pornind Claude Code pentru a actualiza changelog-ul și documentația pentru clienți.
Elvis iese la o plimbare și când se întoarce, pe Telegram are un mesaj: 7 PR-uri sunt gata, 3 funcționalități noi, 4 remedieri de bug-uri. Nu este acesta efectul echipei de dezvoltare a OPC-ului pe care mi l-am dorit întotdeauna?Și atunci când Agentul eșuează, modul în care Zoe gestionează situația este mult mai avansat decât o simplă încercare de reluare. Aceasta va analiza cauza eșecului în contextul afacerii. Contextul Agentului a explodat? Va restrânge domeniul, făcând ca Agentul să se concentreze doar pe trei fișiere. Direcția Agentului s-a abătut? De asemenea, va corecta, spunând Agentului că clientul are nevoie de X, nu de Y, și va adăuga cuvintele exacte din întâlnire.
Pe măsură ce timpul trece, Zoe va acumula experiență, amintindu-și ce structuri de prompturi funcționează bine pentru ce tipuri de sarcini, astfel încât să scrie prompturi mai precise data viitoare.
Această idee este, de fapt, o versiune îmbunătățită a Ralph Loop. Logica de bază a Ralph Loop este un ciclu de extragere a contextului, generare a ieșirii, evaluare a rezultatelor și salvare a experienței, dar majoritatea implementărilor au prompturi fixe pentru fiecare ciclu. Sistemul lui Elvis este diferit; de fiecare dată când Zoe reîncercă, va ajusta dinamic promptul în funcție de cauza eșecului, având în plus un context de afaceri complet.
Costuri și hardware
În ceea ce privește costurile, datele publice ale lui Elvis arată că Claude costă aproximativ 100 de dolari pe lună, iar Codex costă aproximativ 90 de dolari pe lună. De asemenea, a menționat că poți începe cu 20 de dolari pentru a testa.
Aceste costuri sunt, desigur, mult mai mici comparativ cu angajarea unui dezvoltator. Dar, dacă iei în considerare că trebuie să iei decizii de produs, să comunici cu clienții și să faci revizuiri de cod, devine mai mult un amplificator de eficiență, ajutându-te să economisești timp în codare și testare, care sunt cele mai repetitive etape.
În ceea ce privește hardware-ul, Elvis a menționat că cel mai mare obstacol pe care îl are în prezent este RAM-ul. Fiecare Agent necesită un worktree independent, fiecare worktree având propriile sale node_modules, iar fiecare Agent trebuie să ruleze construcții, verificări de tip și teste. 5 Agenți care rulează simultan înseamnă 5 compilatoare TypeScript paralele, 5 executori de teste și 5 seturi de dependențe.
Mac mini-ul său cu 16GB RAM poate rula cel mult 4 până la 5 Agenți simultan; mai mulți și începe să facă swapping de memorie. Așa că a cumpărat un Mac Studio M4 Max cu 128GB RAM (3500 de dolari), intenționând să-l folosească pentru a suporta mai mulți Agenți în paralel.
Concluzie și probleme reale
Sincer, sistemul lui Elvis m-a impresionat destul de mult. Am considerat întotdeauna OpenClaw ca pe un jucărie, iar în ceea ce privește crearea de productivitate, m-am bazat pe Claude Code independent. Foloseam ocazional worktree pentru paralelism, dar nu am ajuns niciodată la un nivel atât de sistematic. După ce am citit tweet-urile lui, simt că plafonul programării AI a fost ridicat din nou.
Recent, am început să aplic gândirea lui și intenționez să construiesc o echipă de dezvoltare complet automatizată cu OpenClaw. Așadar, în curând vom publica mai multe articole despre practica OpenClaw.
Există câteva probleme reale pe care trebuie să le menționez.
Această sistemă presupune că ai un produs clar, cerințe clare de la clienți și o linie CI/CD bine definită. Elvis lucrează la un produs B2B SaaS real, cu clienți, venituri și un mediu de producție. Dacă ești încă în faza de demo sau de învățare, ROI-ul acestei arhitecturi poate să nu fie foarte rentabil.
În plus, problemele de securitate ale OpenClaw trebuie să fie luate în considerare. Conform informațiilor publice, mai multe CVE-uri critice au fost dezvăluite, iar 341 de pluginuri comunitare malițioase au fost descoperite având comportamente de furt de date. Atunci când implementezi OpenClaw, izolarea și controlul permisiunilor trebuie să fie bine gestionate. Acesta este și motivul pentru care nu am implementat OpenClaw pe mașina mea principală.
Un alt aspect, Elvis a evaluat codul de revizuire al Claude Code ca fiind mai puțin valoros, dar recent Claude Code a lansat funcția Agent Teams (colaborare multi-Agent încorporată oficial), iar Anthropic se concentrează și pe acest tip de orchestrare.
Dar lăsând deoparte aceste detalii, arhitectura lui Elvis, care combină stratul de orchestrare cu cel de execuție, merită cu adevărat atenție. Jocul de sumă zero al ferestrei de context este o constrângere reală, iar utilizarea unei arhitecturi stratificate pentru a rezolva această problemă, lăsând diferitele AI-uri să își îndeplinească rolurile, este o direcție pe care o consider corectă.
Cei interesați de acest subiect pot viziona tweet-ul original al lui Elvis, informația fiind foarte densă:...
