OpenClaw + Claude Code/Codex: Lumikha ng Personal na Development Agent Swarm

3/5/2026
8 min read

OpenClaw + Claude Code/Codex: Lumikha ng Personal na Development Agent Swarm

大家好,我是鲁工。

前段在X上刷到一条推文,瞬间就吸引了我。一个叫Elvis的独立开发者说,他现在已经不直接用Claude Code和Codex了,改用OpenClaw作为编排层,让一个叫Zoe的AI编排器去管理一整支Claude Code和Codex的Agent Swarm。

这条推文的数据也很炸裂,490万浏览,1.1万点赞,1800转发。

推文数据我们号写Vibe Coding四个多月,Claude Code一直是主力工具。我之前也写过一些多Agent协作、VSCode多Agent架构等相关文章。

但看到Elvis的这套玩法,我只能直呼内行了。一个人,靠一套编排系统,日均50次代码提交,最猛的一天提交了94次,还接了3个客户电话,编辑器一次都没打开。

这不就是一个人当一支开发团队用吗?

今天这篇文章就来拆解一下,他到底是怎么做到的。

OpenClaw大家都不陌生了

这只小龙虾春节前到现在,一直火爆。简单来说就是一个开源的AI Agent框架,GitHub上目前已经超过24万Star,并在前两天正式超越React,成为GitHub历史上star增长最快的开源项目。

OpenClaw创始人Peter Steinberger是奥地利开发者,之前创办过PSPDFKit(一个PDF框架的B2B公司),2021年拿了Insight Partners一亿欧元的投资。今年2月Peter宣布加入OpenAI,OpenClaw项目移交给开源基金会运营。

OpenClaw的定位不是聊天机器人,是一个跑在你本地设备上的AI Agent运行时。它有四个核心组件:Gateway(网关,连接50多个消息平台)、Agent(推理引擎)、Skills(5400多个插件)、Memory(记忆系统)。

但Elvis用OpenClaw的方式比较特别。他直接把它当成编排层,专门用来管理Claude Code和Codex这些编码Agent,没拿它当通用助手在使用。

这个思路确实很不一般。

为什么需要一个编排层呢?

Elvis在推文里提了一个很关键的观点:上下文窗口是零和博弈

你往里面塞代码,就没空间放业务上下文了。你往里塞客户历史和会议记录,就没空间放代码库了。单个AI再强,它也没办法同时装下这两种完全不同类型的信息。

所以他把系统拆成了两层。

上层是OpenClaw的编排器Zoe,她掌握所有业务上下文,包括客户数据、会议记录、历史决策、哪些方案试过了、哪些失败了。这些信息全部存在Elvis的Obsidian笔记库里,Zoe可以直接读取。

下层是Claude Code和Codex这些编码Agent,它们只看代码,只管写代码。每个Agent启动的时候,Zoe会根据业务上下文给它写一份精准的prompt,告诉它该做什么、背景是什么、客户要的是什么。

简单来说了就是:编排器负责理解需求,编码Agent负责干活。各做各擅长的事。

这个架构和Stripe前段时间公开的内部系统Minions异曲同工。Stripe的Minions也是并行编码Agent加集中式编排层的设计,每周能合并1000多个完全由AI编写的PR。Elvis说他是无意中搭了个类似的架构,只不过跑在自己的Mac mini上。

真实案例工作流

Elvis在推文里用了一个真实案例来讲他的完整工作流,我把核心环节简单串一下。Kumuha siya ng tawag mula sa isang kliyente, nais ng kliyente na muling gamitin ang umiiral na configuration sa loob ng team. Matapos ang tawag, nakipag-usap siya kay Zoe tungkol sa pangangailangang ito. Dahil ang lahat ng tala ng pulong ay awtomatikong nagsasama-sama sa Obsidian, alam na ni Zoe ang sinabi ng kliyente, hindi na kailangan ng karagdagang paliwanag mula kay Elvis. Sama-sama nilang tinukoy ang saklaw ng mga tampok, at ang panghuling plano ay gumawa ng isang sistema ng template.

Pagkatapos, awtomatikong gumawa si Zoe ng tatlong bagay: nagbigay ng recharge unlock service sa kliyente (mayroon siyang administrator API access), kumuha mula sa production database ng umiiral na configuration ng kliyente (read-only access, ang coding Agent ay hindi kailanman magkakaroon ng access na ito), at pagkatapos ay bumuo ng isang Codex Agent, na may kasamang detalyadong prompt na naglalaman ng kumpletong konteksto ng negosyo.

Bawat Agent ay may kanya-kanyang worktree (naka-isolate na branch) at tmux session. Ang command para simulan ay ganito:

# Lumikha ng worktree + mag-spawn ng agent git worktree add ../feat-custom-templates -b feat/custom-templates origin/main cd ../feat-custom-templates && pnpm install tmux new-session -d -s "codex-templates" \ -c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates" \ "$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high"Matapos umandar ang Agent, mayroong isang scheduled task na nagche-check tuwing 10 minuto. Ngunit hindi ito direktang nagtatanong sa Agent (masyadong magastos sa token), kundi nagpapatakbo ng isang deterministic na Shell script, na nagche-check kung ang tmux session ay buhay pa, kung mayroong na-create na PR, at kung ang CI ay pumasa.

Kung nabigo ang CI, awtomatikong ire-restart ang Agent, at maximum na tatlong beses ito susubukan. Magpapadala lamang ng notification kapag kinakailangan ng interbensyon ng tao.

Matapos makumpleto ng Agent ang gawain, awtomatikong lilikha ito ng PR. Ngunit ang simpleng paglikha ng PR ay hindi pa tapos, nagtakda si Elvis ng isang set ng mga pamantayan para sa pagkumpleto: paglikha ng PR, pagsasama ng branch sa main (walang merge conflict), lahat ng CI ay pumasa, lahat ng code review ng tatlong AI model ay pumasa, at kung may UI na pagbabago, kailangan ding mag-attach ng screenshot.

Tatlong AI Model para sa Code Review

Ang tatlong AI model para sa code review ay mukhang matatag. Kapag pinag-usapan niya ang kanyang mga pagsusuri sa tatlong modelong ito, medyo kawili-wili.

Codex Reviewer, siya ang may pinakamataas na pagsusuri, sinabing napaka-komprehensibo ng pagsusuri nito sa mga boundary case at logical errors, at mababa ang false positive rate.

Gemini Code Assist Reviewer, libre ito, sinabing napaka-kapaki-pakinabang, natutukoy ang mga seguridad na panganib at scalability issues na nalampasan ng ibang mga modelo, at makapagbibigay ng tiyak na solusyon sa pag-aayos.

Claude Code Reviewer, ang kanyang eksaktong sinabi ay "halos walang silbi", sinabing ito ay labis na maingat, puno ng mga suhestiyon tulad ng "isiping idagdag...", karamihan ay labis na disenyo. Maliban kung itinuturing na isang kritikal na isyu, direkta siyang lumalaktaw dito.

Nang makita ko ang bahaging ito, medyo nagulat ako. Bilang isang heavy user ng Claude Code, talagang nakatagpo ako ng mga pagkakataon na ito ay masyadong konserbatibo sa code review, ngunit ang "halos walang silbi" na pagsusuri ay medyo labis. Gayunpaman, ito rin ay nagpapakita na ang cross-review ng maraming modelo ay talagang may halaga, ang bias ng iba't ibang modelo ay nagkukulang sa isa't isa.

Matapos makapasa ang lahat ng tatlong pagsusuri, saka pa lamang makakatanggap si Elvis ng notification sa Telegram. Sa puntong ito, ang tinitingnan niya ay mga screenshot, upang tiyakin kung tama ang UI na pagbabago, maraming PR ang hindi niya tinitingnan ang code at direkta na niyang pinagsasama. Sinabi niya na ang kanyang manual review ay nangangailangan lamang ng 5 hanggang 10 minuto.

Proaktibong Pagganap ni Zoe

Si Zoe ay hindi lamang isang tagapagpatupad. Mas kawili-wili kaysa sa workflow mismo ay ang proaktibong pagganap ni Zoe.

Sinabi ni Elvis na si Zoe ay hindi naghihintay na italaga ang mga gawain, siya ay aktibong naghahanap ng mga trabaho. Sa umaga, sinuri ang mga error log ng Sentry, natagpuan ang 4 na bagong error, awtomatikong bumuo ng 4 na Agent upang ayusin ang mga ito. Matapos ang pulong, sinuri ang mga tala ng pulong, minarkahan ang 3 mga kinakailangan sa tampok na binanggit ng kliyente, at pagkatapos ay awtomatikong nag-umpisa ng 3 Codex Agent. Sa gabi, sinuri ang mga log ng Git, nag-umpisa ng Claude Code upang i-update ang changelog at dokumento ng kliyente.

Nang bumalik si Elvis mula sa paglalakad, may natagpuan siyang mensahe sa Telegram: 7 PR ang handa na, 3 bagong tampok, 4 na pag-aayos ng bug. Ito na ba ang inaasahan kong epekto ng OPC na isang tao na kumpanya ng development team?At kapag nabigo ang Agent, ang paraan ng paghawak ni Zoe ay mas advanced kaysa sa simpleng muling pagsubok. Ito ay nagsasama ng pagsusuri ng dahilan ng pagkabigo batay sa konteksto ng negosyo. Nag-crash ang konteksto ng Agent? Pinaikli nito ang saklaw, pinapayagan ang Agent na tumutok lamang sa tatlong file. Naligaw ng landas ang Agent? Itinatama din ito, sinasabi sa Agent na ang kailangan ng kliyente ay X hindi Y, at nagdadagdag ng orihinal na mga salita mula sa pulong.

Sa paglipas ng panahon, si Zoe ay mag-iipon ng karanasan, alalahanin kung aling mga prompt structure ang epektibo para sa anong uri ng gawain, at sa susunod ay makakagawa ng mas tumpak na prompt.

Ang ideyang ito ay talagang isang upgraded version ng Ralph Loop. Ang pangunahing lohika ng Ralph Loop ay ang pagkuha ng konteksto, pagbuo ng output, pagsusuri ng resulta, at pag-save ng karanasan sa isang cycle, ngunit karamihan sa mga implementasyon ay may nakatakdang prompt sa bawat cycle. Iba ang sistema ni Elvis, sa bawat muling pagsubok, si Zoe ay dinamikong nag-aayos ng prompt batay sa dahilan ng pagkabigo, at may kumpletong konteksto ng negosyo.

Gastos at Hardware

Sa usaping gastos, ang pampublikong datos ni Elvis ay ang Claude ay humigit-kumulang $100 bawat buwan, ang Codex ay humigit-kumulang $90 bawat buwan. Sinabi din niya na maaari kang magsimula sa $20 upang subukan ang tubig.

Ang gastos na ito ay tiyak na mas mura kumpara sa pagkuha ng isang developer. Ngunit kung isasaalang-alang na kailangan mo ring gumawa ng mga desisyon sa produkto, makipag-ugnayan sa mga kliyente, at suriin ang code, ito ay mas katulad ng isang amplifier ng kahusayan, na tumutulong sa iyo na makatipid sa mga paulit-ulit na hakbang tulad ng coding at testing.

Sa hardware, binanggit ni Elvis na ang kanyang pinakamalaking bottleneck ay ang RAM. Bawat Agent ay nangangailangan ng sariling worktree, bawat worktree ay may sariling nodemodules, at bawat Agent ay kailangang tumakbo ng build, type checking, at testing. Ang 5 Agent na tumatakbo nang sabay-sabay ay nangangahulugang 5 parallel TypeScript compiler, 5 testing runners, at 5 set ng dependencies.

Ang kanyang Mac mini na may 16GB na memorya ay kayang tumakbo ng 4 hanggang 5 Agent nang sabay, higit pa rito ay magsisimula nang mag-swap ng memory. Kaya bumili siya ng isang Mac Studio M4 Max na may 128GB na memorya ($3500), na balak niyang gamitin upang suportahan ang mas maraming sabay-sabay na Agent.

Buod at Mga Realidad na Problema

Sa totoo lang, ang sistemang ito ni Elvis ay talagang nakakaapekto sa akin. Dati, itinuturing ko ang OpenClaw bilang laruan, at sa pagbuo ng produktibidad, umaasa ako sa nakahiwalay na Claude Code. Paminsan-minsan ay gumagamit ng worktree para sa parallel, ngunit hindi pa ito umabot sa ganitong sistematikong antas. Matapos basahin ang kanyang tweet, naramdaman kong ang ceiling ng AI programming ay tumaas muli.

Kamakailan, sinusunod ko ang kanyang ideya, at balak kong gamitin ang OpenClaw upang bumuo ng isang ganap na automated na one-person development team. Kaya, sa malapit na hinaharap, magkakaroon kami ng maraming artikulo sa pagsasanay tungkol sa OpenClaw.

May ilang mga realidad na problema na kailangan kong ipaalala sa lahat.

Ang premis ng sistemang ito ay kailangan mong magkaroon ng isang malinaw na produkto, tiyak na pangangailangan ng kliyente, at kumpletong CI/CD pipeline. Si Elvis ay gumagawa ng isang tunay na B2B SaaS na produkto, may mga kliyente, may kita, at may production environment. Kung ikaw ay nasa yugto pa ng pagsusulat ng Demo o pag-aaral, maaaring hindi masyadong kapaki-pakinabang ang ROI ng arkitekturang ito.

Bukod dito, ang kasalukuyang mga isyu sa seguridad ng OpenClaw ay dapat ding bigyang-pansin. Ayon sa pampublikong impormasyon, mayroong maraming mataas na panganib na CVE na naihayag, at 341 na nakakahamak na community plugin ang natagpuan na may mga aktibidad ng pagnanakaw ng data. Kapag nag-deploy ng OpenClaw, dapat na maayos ang isolation at control ng permissions. Ito rin ang dahilan kung bakit hindi ko pa nailalagay ang OpenClaw sa aking pangunahing lokal na makina.

Isang bagay pa, si Elvis ay may mababang pagsusuri sa code review ng Claude Code sa kanyang tweet, ngunit kamakailan lamang ay inilunsad ng Claude Code ang Agent Teams feature (opisyal na built-in na multi-Agent collaboration), at ang Anthropic ay nagtatrabaho din patungo sa direksyong ito.

Ngunit sa kabila ng mga detalyeng ito, ang arkitekturang iniisip ni Elvis na may orchestration layer at execution layer ay talagang karapat-dapat na bigyang-pansin. Ang zero-sum game ng context window ay isang tunay na constraint, at ang paggamit ng layered architecture upang malutas ang problemang ito, na nagpapahintulot sa iba't ibang AI na gampanan ang kanilang mga tungkulin, ay sa tingin ko ay tamang direksyon.[[HTMLPLACEHOLDER0]][[HTMLPLACEHOLDER1]][[HTMLPLACEHOLDER2]][[HTMLPLACEHOLDER3]][[HTMLPLACEHOLDER4]][[HTMLPLACEHOLDER_5]]

Published in Technology

You Might Also Like