OpenClaw + Claude Code/Codex: Een Persoonlijke Ontwikkelingsagent Swarm Creëren
OpenClaw + Claude Code/Codex: Een Persoonlijke Ontwikkelingsagent Swarm Creëren
Hallo iedereen, ik ben Lu Gong.
Onlangs zag ik een tweet op X die me onmiddellijk aansprak. Een onafhankelijke ontwikkelaar genaamd Elvis zei dat hij nu niet meer direct Claude Code en Codex gebruikt, maar OpenClaw als orkestratielaag gebruikt, waarbij een AI-orchestrator genaamd Zoe een hele Claude Code en Codex Agent Swarm beheert.
De gegevens van deze tweet zijn ook indrukwekkend, 4,9 miljoen weergaven, 11.000 likes, 1800 retweets.
We schrijven nu al meer dan vier maanden Vibe Coding, en Claude Code is altijd het belangrijkste hulpmiddel geweest. Eerder heb ik ook enkele artikelen geschreven over multi-agent samenwerking, VSCode multi-agent architectuur, enzovoort.
Maar toen ik Elvis' aanpak zag, kon ik alleen maar zeggen dat hij een expert is. Eén persoon, met een orkestratiesysteem, gemiddeld 50 code-inzendingen per dag, op de meest drukke dag 94 inzendingen, en hij nam ook 3 klanttelefoontjes aan zonder de editor ooit te openen.
Is dit niet alsof één persoon een heel ontwikkelingsteam vervangt?
Vandaag gaan we in deze artikel analyseren hoe hij dit voor elkaar heeft gekregen.
OpenClaw is voor iedereen bekend
Deze kleine kreeft is sinds voor het Chinese Nieuwjaar erg populair. Simpel gezegd is het een open-source AI Agent framework, dat momenteel meer dan 240.000 sterren op GitHub heeft en onlangs React heeft overtroffen als het snelst groeiende open-source project in de geschiedenis van GitHub.
De oprichter Peter Steinberger is een Oostenrijkse ontwikkelaar die eerder PSPDFKit heeft opgericht (een B2B bedrijf voor een PDF framework) en in 2021 100 miljoen euro aan investeringen van Insight Partners heeft ontvangen. In februari van dit jaar kondigde Peter aan dat hij zich bij OpenAI voegde en dat het OpenClaw-project werd overgedragen aan een open-source stichting.
De positionering van OpenClaw is geen chatbot, maar een AI Agent runtime die op je lokale apparaat draait. Het heeft vier kerncomponenten: Gateway (verbindt meer dan 50 berichtenplatforms), Agent (redeneringsengine), Skills (meer dan 5400 plugins), Memory (geheugensysteem).
Maar Elvis gebruikt OpenClaw op een bijzondere manier. Hij beschouwt het als een orkestratielaag, speciaal om Claude Code en Codex coding agents te beheren, en gebruikt het niet als een algemene assistent.
Deze gedachtegang is inderdaad ongebruikelijk.
Waarom hebben we een orkestratielaag nodig?
Elvis noemde in zijn tweet een heel belangrijk punt: de contextvenster is een nul-som spel.
Als je er code in stopt, is er geen ruimte meer voor de zakelijke context. Als je klantgeschiedenis en vergadernotities erin stopt, is er geen ruimte meer voor de codebase. Hoe sterk een enkele AI ook is, het kan niet tegelijkertijd deze twee totaal verschillende soorten informatie bevatten.
Dus heeft hij het systeem in twee lagen opgesplitst.
De bovenste laag is de orkestrator Zoe van OpenClaw, die alle zakelijke context beheert, inclusief klantgegevens, vergadernotities, historische beslissingen, welke oplossingen zijn geprobeerd en welke zijn mislukt. Deze informatie is allemaal opgeslagen in Elvis' Obsidian notitiebibliotheek, die Zoe direct kan lezen.
De onderste laag zijn de coding agents zoals Claude Code en Codex, die alleen naar code kijken en zich alleen bezighouden met het schrijven van code. Wanneer elke agent opstart, schrijft Zoe op basis van de zakelijke context een nauwkeurige prompt voor hen, waarin staat wat ze moeten doen, wat de achtergrond is en wat de klant wil.
Kort gezegd: de orkestrator is verantwoordelijk voor het begrijpen van de behoeften, de coding agents zijn verantwoordelijk voor het werk. Iedereen doet waar hij goed in is.
Deze architectuur is vergelijkbaar met het interne systeem Minions dat Stripe onlangs openbaar maakte. Stripe's Minions is ook een ontwerp van parallelle coding agents met een gecentraliseerde orkestratielaag, die wekelijks meer dan 1000 volledig door AI geschreven PR's kan samenvoegen. Elvis zegt dat hij per ongeluk een soortgelijke architectuur heeft opgebouwd, maar dan op zijn eigen Mac mini.
Echte casestudy workflow
Elvis gebruikte in zijn tweet een echte casestudy om zijn volledige workflow uit te leggen, ik zal de kernpunten kort samenvatten.Hij nam een telefoontje van een klant aan, de klant wilde bestaande configuraties binnen het team hergebruiken. Na het gesprek besprak hij deze behoefte met Zoe. Omdat alle notulen automatisch worden gesynchroniseerd met Obsidian, wist Zoe al wat de klant had gezegd, dus hoefde Elvis niets extra uit te leggen. Ze bepaalden samen de functionaliteitsomvang, en de uiteindelijke oplossing was het maken van een sjabloonsysteem.
Vervolgens deed Zoe automatisch drie dingen: ze voegde tegoed toe voor de ontgrendelservice voor de klant (ze heeft beheerders-API-rechten), trok de bestaande configuratie van de klant uit de productie-database (alleen-lezen rechten, de codering Agent zal nooit deze rechten hebben), en genereerde vervolgens een Codex Agent, met een gedetailleerde prompt die de volledige zakelijke context bevatte.
Elke Agent heeft zijn eigen onafhankelijke worktree (geïsoleerde tak) en tmux-sessie. De opstartopdracht is ongeveer als volgt:
# Maak worktree + spawn agent git worktree add ../feat-custom-templates -b feat/custom-templates origin/main cd ../feat-custom-templates && pnpm install tmux new-session -d -s "codex-templates" \ -c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates" \ "$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high" Nadat de Agent is opgestart, is er een geplande taak die elke 10 minuten controleert. Maar het vraagt de Agent niet direct (dat zou te veel tokens kosten), maar draait een deterministisch Shell-script dat controleert of de tmux-sessie nog actief is, of er een PR is aangemaakt, en of de CI is geslaagd.
Als de CI faalt, herstart de Agent automatisch, maximaal 3 keer. Alleen als menselijke tussenkomst nodig is, wordt er een melding verzonden.
Nadat de Agent zijn taak heeft voltooid, wordt er automatisch een PR aangemaakt. Maar alleen het aanmaken van een PR is nog niet genoeg, Elvis heeft een set voltooiingscriteria gedefinieerd: PR aangemaakt, tak gesynchroniseerd met main (geen samenvoegconflicten), CI volledig geslaagd, codebeoordeling door drie AI-modellen volledig geslaagd, en als er UI-wijzigingen zijn, moeten er ook schermafbeeldingen worden bijgevoegd.
Drie AI-modellen voor codebeoordeling
Drie AI-modellen voor codebeoordeling lijkt heel solide. Het is interessant om zijn beoordeling van deze drie modellen te bespreken.
Codex Reviewer, hij gaf de hoogste beoordeling, zei dat de beoordeling van grensgevallen en logische fouten zeer grondig is, met een lage fout-positieve rate.
Gemini Code Assist Reviewer, gratis, hij zei dat het zeer nuttig is, kan beveiligingsrisico's en schaalbaarheidsproblemen ontdekken die andere modellen hebben gemist, en kan specifieke oplossingen bieden.
Claude Code Reviewer, zijn exacte woorden waren "bijna nutteloos", hij zei dat het te voorzichtig is, vol staat met suggesties zoals "overweeg om toe te voegen...", de meeste behoren tot overmatige ontwerp. Tenzij gemarkeerd als een kritisch probleem, slaat hij het gewoon over.
Toen ik dit las, was ik een beetje verrast. Als een zware gebruiker van Claude Code heb ik inderdaad ook ervaren dat het te conservatief is tijdens codebeoordelingen, maar de beoordeling "bijna nutteloos" lijkt een beetje overdreven. Maar dit geeft ook aan dat kruisbeoordeling door meerdere modellen echt waardevol is, de vooroordelen van verschillende modellen vullen elkaar mooi aan.
Pas nadat alle drie de beoordelingen zijn goedgekeurd, ontvangt Elvis een Telegram-melding. Tot dit punt kijkt hij voornamelijk naar de schermafbeeldingen om te bevestigen of de UI-wijzigingen correct zijn, veel PR's voegt hij samen zonder de code te bekijken. Hij zei dat zijn handmatige beoordeling slechts 5 tot 10 minuten duurt.
Zoe's Proactiviteit
Zoe is niet alleen een uitvoerder. Wat interessanter is dan de workflow zelf, is Zoe's proactiviteit.
Elvis zei dat Zoe niet wacht tot ze een taak toegewezen krijgt, ze zoekt actief naar werk. 's Ochtends scant ze de foutlogboeken van Sentry, ontdekt 4 nieuwe fouten, en genereert automatisch 4 Agents om deze te verhelpen. Na de vergadering scant ze de notulen, markeert 3 functionele vereisten die door de klant zijn genoemd, en start automatisch 3 Codex Agents. 's Avonds scant ze de Git-logboeken en start Claude Code om de changelog en klantdocumentatie bij te werken.
Elvis gaat even een rondje lopen en als hij terugkomt, ligt er een bericht op Telegram: 7 PR's zijn klaar, 3 nieuwe functies, 4 bugfixes. Is dit niet precies het effect dat ik altijd heb gewild voor het OPC één-persoon bedrijf ontwikkelteam?En wanneer de Agent faalt, is de manier waarop Zoe dit aanpakt veel geavanceerder dan simpelweg opnieuw proberen. Het zal de reden voor de mislukking analyseren in de context van de business. Is de context van de Agent overbelast? Dan zal het de focus verkleinen, zodat de Agent zich alleen op drie bestanden richt. Is de richting van de Agent verkeerd? Dan zal het ook corrigeren en de Agent vertellen dat de klant X wil en niet Y, met de exacte woorden uit de vergadering erbij.
Naarmate de tijd verstrijkt, zal Zoe ook ervaring opbouwen en onthouden welke promptstructuren goed werken voor welke taken, zodat het de volgende keer een nauwkeurigere prompt kan schrijven.
Dit idee is eigenlijk een geüpgradede versie van de Ralph Loop. De kernlogica van de Ralph Loop is een cyclus van context ophalen, output genereren, resultaten evalueren en ervaring opslaan, maar de meeste implementaties hebben een vaste prompt voor elke cyclus. Het systeem van Elvis is anders; bij elke herhaling past Zoe de prompt dynamisch aan op basis van de reden van de mislukking, en het heeft de volledige context van de business ter ondersteuning.
Kosten en Hardware
Wat betreft de kosten, de openbare gegevens van Elvis zijn dat Claude ongeveer 100 dollar per maand kost en Codex ongeveer 90 dollar per maand. Hij zei ook dat je kunt beginnen met 20 dollar om het uit te proberen.
Deze kosten zijn natuurlijk belachelijk goedkoop in vergelijking met het inhuren van een ontwikkelaar. Maar als je bedenkt dat je ook zelf productbeslissingen, klantcommunicatie en codebeoordelingen moet doen, is het meer een efficiëntieversterker die je helpt om de meest repetitieve stappen zoals coderen en testen te besparen.
Wat hardware betreft, noemde Elvis dat zijn grootste bottleneck momenteel RAM is. Elke Agent heeft een onafhankelijke worktree nodig, elke worktree heeft zijn eigen nodemodules, en elke Agent moet bouwen, type-controle en testen uitvoeren. Vijf Agents die tegelijkertijd draaien betekent vijf parallelle TypeScript-compiler, vijf testuitvoerders en vijf sets afhankelijkheden.
Zijn Mac mini met 16GB RAM kan maximaal 4 tot 5 Agents tegelijk draaien; meer dan dat begint geheugenwisseling te veroorzaken. Daarom heeft hij een Mac Studio M4 Max met 128GB RAM gekocht (3500 dollar), met de bedoeling om meer gelijktijdige Agents aan te kunnen.
Samenvatting en Realiteitsproblemen
Eerlijk gezegd heeft het systeem van Elvis me behoorlijk geraakt. Ik beschouwde OpenClaw altijd als een speeltje, en voor productiviteit was ik afhankelijk van de onafhankelijke Claude Code. Af en toe gebruikte ik worktree voor parallelle taken, maar het was nog lang niet op dit systematische niveau. Na het lezen van zijn tweets, heb ik het gevoel dat de plafond van AI-programmering weer een stuk hoger is getrokken.
Ik ben recentelijk van plan om volgens zijn idee OpenClaw te gebruiken om een volledig geautomatiseerd eenmans ontwikkelteam op te zetten. Dus binnenkort zullen we meerdere artikelen over de praktijk van OpenClaw publiceren.
Er zijn een paar realiteitsproblemen die ik jullie moet waarschuwen.
De voorwaarde voor dit systeem is dat je een duidelijk product, duidelijke klantbehoeften en een goed CI/CD-pijplijn moet hebben. Elvis werkt aan een echt B2B SaaS-product, met klanten, inkomsten en een productieomgeving. Als je nog steeds demo's schrijft of in de leerfase bent, is de ROI van deze architectuur misschien niet zo voordelig.
Bovendien moet je ook letten op de huidige veiligheidsproblemen van OpenClaw. Volgens openbare informatie zijn er al meerdere hoge risico CVE's onthuld, en zijn er 341 kwaadaardige community-plug-ins ontdekt die gegevensdiefstal vertonen. Bij het implementeren van OpenClaw moet je ervoor zorgen dat isolatie en toegangscontrole goed zijn ingesteld. Dit is ook de reden waarom ik OpenClaw nog niet op mijn lokale hoofdmachine heb geïmplementeerd.
Een ander punt is dat Elvis in zijn tweets de codebeoordeling van Claude Code als laagwaardig beoordeelt, maar onlangs heeft Claude Code de functie Agent Teams gelanceerd (officiële ingebouwde samenwerking met meerdere Agents), en Anthropic werkt ook aan het verbeteren van de orkestratie in deze richting.
Maar los van deze details, is de architectuur van Elvis met een orkestratielaag en uitvoeringslaag zeker het overwegen waard. Het zero-sum spel van de contextvensters is een echte beperking, en het gebruik van een gelaagde architectuur om dit probleem op te lossen, zodat verschillende AI's hun eigen taken kunnen uitvoeren, vind ik persoonlijk de juiste richting.[[HTMLPLACEHOLDER_0]]

