OpenClaw + Claude Code/Codex: Tworzenie osobistego agenta deweloperskiego Swarm

Cześć wszystkim, jestem Lu Gong.

Niedawno natknąłem się na tweet na X, który od razu mnie przyciągnął. Niezależny deweloper o imieniu Elvis powiedział, że już nie korzysta bezpośrednio z Claude Code i Codex, ale używa OpenClaw jako warstwy orkiestracyjnej, aby zarządzać całą grupą agentów Claude Code i Codex, nazywaną Zoe.

Dane z tego tweeta również są imponujące: 4,9 miliona wyświetleń, 11 tysięcy polubień, 1800 retweetów.

Pisaliśmy o Vibe Coding przez ponad cztery miesiące, a Claude Code był naszym głównym narzędziem. Wcześniej pisałem również kilka artykułów na temat współpracy wielu agentów, architektury wielu agentów w VSCode itp.

Jednak widząc sposób, w jaki Elvis to robi, mogę tylko powiedzieć, że to profesjonalne podejście. Jedna osoba, korzystając z systemu orkiestracyjnego, dokonuje średnio 50 zgłoszeń kodu dziennie, a w najintensywniejszym dniu złożyła 94 zgłoszenia, jednocześnie odbierając 3 telefony od klientów, nie otwierając ani razu edytora.

Czyż to nie jest jakby jedna osoba pełniła rolę całego zespołu deweloperskiego?

Dziś w tym artykule przyjrzymy się, jak dokładnie to osiągnął.

OpenClaw nie jest nikomu obcy

Ten mały rak, od czasu przed Chińskim Nowym Rokiem, jest bardzo popularny. Mówiąc prosto, to otwartoźródłowy framework AI Agent, który na GitHubie ma już ponad 240 tysięcy gwiazdek i niedawno, dwa dni temu, oficjalnie wyprzedził React, stając się najszybciej rosnącym projektem open source w historii GitHub.

Założyciel Peter Steinberger to austriacki deweloper, który wcześniej założył PSPDFKit (B2B firma zajmująca się frameworkiem PDF), a w 2021 roku pozyskał 100 milionów euro inwestycji od Insight Partners. W lutym tego roku Peter ogłosił dołączenie do OpenAI, a projekt OpenClaw został przekazany fundacji open source do zarządzania.

OpenClaw nie jest chatbotem, to runtime AI Agent działający na twoim lokalnym urządzeniu. Ma cztery podstawowe komponenty: Gateway (brama, łącząca ponad 50 platform wiadomości), Agent (silnik wnioskowania), Skills (ponad 5400 wtyczek), Memory (system pamięci).

Jednak sposób, w jaki Elvis używa OpenClaw, jest dość szczególny. Bezpośrednio traktuje go jako warstwę orkiestracyjną, specjalnie do zarządzania agentami kodującymi Claude Code i Codex, nie używając go jako ogólnego asystenta.

To podejście jest rzeczywiście niezwykłe.

Dlaczego potrzebujemy warstwy orkiestracyjnej?

Elvis w swoim tweecie poruszył bardzo kluczowy punkt: okno kontekstowe to gra o sumie zerowej.

Jeśli włożysz tam kod, nie ma miejsca na kontekst biznesowy. Jeśli włożysz historię klientów i notatki ze spotkań, nie ma miejsca na repozytorium kodu. Nawet najsilniejszy AI nie może jednocześnie pomieścić dwóch całkowicie różnych typów informacji.

Dlatego podzielił system na dwie warstwy.

Górna warstwa to orkiestrator OpenClaw, Zoe, która zarządza wszystkimi kontekstami biznesowymi, w tym danymi klientów, notatkami ze spotkań, historią decyzji, które rozwiązania były testowane, a które zawiodły. Te informacje są przechowywane w notatniku Obsidian Elvisa, z którego Zoe może bezpośrednio korzystać.

Dolna warstwa to agenci kodujący Claude Code i Codex, którzy zajmują się tylko kodem. Każdy agent, gdy się uruchamia, otrzymuje od Zoe precyzyjny prompt na podstawie kontekstu biznesowego, informujący go, co ma robić, jaki jest kontekst i czego chce klient.

Mówiąc prosto: orkiestrator odpowiada za zrozumienie wymagań, agenci kodujący odpowiadają za wykonanie pracy. Każdy robi to, co potrafi najlepiej.

Ta architektura jest podobna do wewnętrznego systemu Minions, który niedawno ujawnił Stripe. Minions Stripe'a to również projekt równoległych agentów kodujących z centralną warstwą orkiestracyjną, który co tydzień może łączyć ponad 1000 PR-ów napisanych całkowicie przez AI. Elvis mówi, że przypadkowo stworzył podobną architekturę, tylko że działa na jego własnym Mac mini.

Rzeczywisty przepływ pracy

Elvis w swoim tweecie użył rzeczywistego przypadku, aby opisać swój pełny przepływ pracy, a ja krótko podsumuję kluczowe etapy.On odebrał telefon od klienta, który chciał ponownie wykorzystać istniejące konfiguracje w zespole. Po zakończeniu rozmowy porozmawiał z Zoe na temat tego zapotrzebowania. Ponieważ wszystkie notatki ze spotkań są automatycznie synchronizowane z Obsidian, Zoe już wiedziała, co powiedział klient, więc Elvis nie musiał dodatkowo wyjaśniać. Razem określili zakres funkcji, a ostatecznym rozwiązaniem było stworzenie systemu szablonów.

Następnie Zoe automatycznie wykonała trzy rzeczy: doładowała klientowi usługę odblokowania (ma uprawnienia administratora API), pobrała istniejące konfiguracje klienta z bazy danych produkcyjnej (uprawnienia tylko do odczytu, kodujący Agent nigdy nie będzie miał tych uprawnień), a następnie wygenerowała Codex Agenta, który zawierał szczegółowy prompt z pełnym kontekstem biznesowym.

Każdy Agent ma swoje niezależne worktree (izolowana gałąź) i sesję tmux. Komenda uruchamiająca wygląda mniej więcej tak:

# Utwórz worktree + uruchom agenta git worktree add ../feat-custom-templates -b feat/custom-templates origin/main cd ../feat-custom-templates && pnpm install tmux new-session -d -s "codex-templates" \ -c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates" \ "$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high Po uruchomieniu Agenta, jest zadanie cykliczne, które co 10 minut sprawdza jego status. Jednak nie pyta bezpośrednio Agenta (to by zbyt mocno obciążyło tokeny), lecz uruchamia deterministyczny skrypt Shell, który sprawdza, czy sesja tmux nadal działa, czy utworzono PR oraz czy CI przeszedł.

Jeśli CI nie powiedzie się, Agent jest automatycznie restartowany, maksymalnie 3 razy. Powiadomienia są wysyłane tylko wtedy, gdy potrzebna jest interwencja człowieka.

Po zakończeniu zadania Agent automatycznie tworzy PR. Jednak samo utworzenie PR to nie koniec, Elvis zdefiniował zestaw standardów ukończenia: utworzenie PR, synchronizacja gałęzi z main (bez konfliktów scalania), wszystkie testy CI muszą przejść, przegląd kodu przez trzy modele AI musi być pozytywny, a jeśli są zmiany w UI, muszą być dołączone zrzuty ekranu.

Trzy modele AI do przeglądu kodu

Trzy modele AI do przeglądu kodu wyglądają na bardzo solidne. Rozmawiając o jego ocenie tych trzech modeli, jest to dość interesujące.

Codex Reviewer, ocenił go najwyżej, mówiąc, że jego przegląd w przypadku sytuacji brzegowych i błędów logicznych jest bardzo dokładny, a wskaźnik fałszywych alarmów jest niski.

Gemini Code Assist Reviewer, darmowy, powiedział, że jest bardzo przydatny, potrafi wykryć luki w bezpieczeństwie i problemy z skalowalnością, które umknęły innym modelom, a także może zaproponować konkretne rozwiązania.

Claude Code Reviewer, jego dokładne słowa to "praktycznie bezużyteczny", powiedział, że jest zbyt ostrożny, pełno tam sugestii typu "rozważ dodanie...", większość z nich to nadmierne projektowanie. Chyba że oznaczone jako kluczowy problem, w przeciwnym razie po prostu je pomija.

Kiedy to przeczytałem, byłem trochę zaskoczony. Jako intensywny użytkownik Claude Code, rzeczywiście spotkałem się z sytuacjami, w których był zbyt ostrożny podczas przeglądu kodu, ale określenie, że jest praktycznie bezużyteczny, wydaje się przesadzone. Jednak to również pośrednio pokazuje, że przegląd krzyżowy przez wiele modeli ma rzeczywiście wartość, a uprzedzenia różnych modeli doskonale się uzupełniają.

Dopiero po pozytywnym przeglądzie wszystkich trzech, Elvis otrzymuje powiadomienie na Telegramie. Na tym etapie głównie patrzy na zrzuty ekranu, aby potwierdzić, czy zmiany w UI są poprawne, wiele PR łączy bez przeglądania kodu. Mówi, że jego przegląd ręczny zajmuje tylko 5 do 10 minut.

Proaktywność Zoe

Zoe nie jest tylko wykonawcą. Ciekawsza od samego przepływu pracy jest proaktywność Zoe.

Elvis mówi, że Zoe nie czeka na przydzielenie zadań, ale sama aktywnie szuka pracy. Rano skanuje błędy w Sentry, odkrywa 4 nowe błędy, automatycznie generuje 4 Agentów do ich naprawy. Po spotkaniu skanuje notatki ze spotkania, zaznacza 3 funkcjonalności, o których wspomniał klient, a następnie automatycznie uruchamia 3 Codex Agentów. Wieczorem skanuje logi Git, uruchamia Claude Code, aktualizuje changelog i dokumentację dla klienta.

Elvis wychodzi na spacer, a po powrocie na Telegramie czeka wiadomość: 7 PR jest gotowych, 3 nowe funkcje, 4 poprawki błędów. Czyż nie jest to dokładnie efekt, który zawsze chciałem osiągnąć w jednoosobowym zespole deweloperskim OPC?A kiedy Agent zawiedzie, sposób, w jaki Zoe to obsługuje, jest znacznie bardziej zaawansowany niż proste ponowne próby. Analizuje przyczyny niepowodzenia w kontekście biznesowym. Kontekst Agenta się wyczerpał? Ograniczy zakres, aby Agent skupił się tylko na trzech plikach. Kierunek Agenta jest błędny? Również to skoryguje, informując Agenta, że klient potrzebuje X, a nie Y, i dołączając oryginalne słowa z spotkania.

Z biegiem czasu Zoe będzie również gromadzić doświadczenie, zapamiętując, które struktury promptów działają dobrze dla jakiego rodzaju zadań, aby następnym razem stworzyć bardziej precyzyjny prompt.

Ta koncepcja jest w rzeczywistości ulepszoną wersją Ralph Loop. Kluczowa logika Ralph Loop polega na cyklu pobierania kontekstu, generowania wyjścia, oceny wyników i zapisywania doświadczenia, ale większość implementacji ma stały prompt dla każdego cyklu. System Elvisa jest inny, za każdym razem, gdy Zoe ponownie próbuje, dynamicznie dostosowuje prompt w zależności od przyczyny niepowodzenia, a także ma pełne wsparcie kontekstu biznesowego.

Koszty i sprzęt

Jeśli chodzi o koszty, publiczne dane Elvisa wskazują, że Claude kosztuje około 100 dolarów miesięcznie, a Codex około 90 dolarów miesięcznie. Powiedział również, że można zacząć od 20 dolarów, aby przetestować wody.

Te koszty są oczywiście absurdalnie niskie w porównaniu do zatrudnienia programisty. Ale jeśli weźmiesz pod uwagę, że musisz również podejmować decyzje produktowe, komunikować się z klientami i przeprowadzać przeglądy kodu, to bardziej przypomina to wzmacniacz efektywności, który oszczędza ci czas na kodowaniu i testowaniu, które są najbardziej powtarzalnymi etapami.

Jeśli chodzi o sprzęt, Elvis wspomniał, że jego największym wąskim gardłem jest RAM. Każdy Agent potrzebuje niezależnego worktree, każdy worktree ma swoje własne node_modules, a każdy Agent musi uruchamiać budowę, sprawdzanie typów i testy. 5 Agentów działających jednocześnie oznacza 5 równoległych kompilatorów TypeScript, 5 uruchamiaczy testów i 5 zestawów zależności.

Jego Mac mini z 16 GB pamięci może jednocześnie obsługiwać maksymalnie 4 do 5 Agentów, a więcej powoduje wymianę pamięci. Dlatego kupił Mac Studio M4 Max z 128 GB pamięci (3500 dolarów), planując używać go do obsługi większej liczby równoległych Agentów.

Podsumowanie i problemy rzeczywiste

Szczerze mówiąc, system Elvisa zrobił na mnie duże wrażenie. Zawsze traktowałem OpenClaw jako zabawkę, polegając na niezależnym Claude Code w zakresie wydajności. Czasami używałem worktree do równoległego działania, ale nigdy nie osiągnąłem takiego zorganizowanego poziomu. Po przeczytaniu jego tweetów, czuję, że sufit AI programowania został podniesiony o kolejny poziom.

Ostatnio podążam za jego myślą i planuję stworzyć całkowicie zautomatyzowany zespół deweloperski z OpenClaw. Dlatego w najbliższym czasie opublikujemy kilka artykułów praktycznych na temat OpenClaw.

Muszę jednak zwrócić uwagę na kilka rzeczywistych problemów.

Ten system zakłada, że masz jasny produkt, wyraźne potrzeby klientów i doskonałą linię CI/CD. Elvis pracuje nad prawdziwym produktem B2B SaaS, ma klientów, przychody i środowisko produkcyjne. Jeśli nadal piszesz demo lub jesteś na etapie nauki, ROI tej architektury może nie być opłacalne.

Ponadto obecne problemy z bezpieczeństwem OpenClaw również należy wziąć pod uwagę. Zgodnie z publicznymi informacjami, ujawniono już wiele krytycznych CVE, a także odkryto 341 złośliwych wtyczek społecznościowych, które mają zachowania kradzieży danych. Podczas wdrażania OpenClaw, izolacja i kontrola uprawnień muszą być dobrze zrealizowane. To również powód, dla którego nie wdrożyłem OpenClaw na moim głównym komputerze lokalnym.

Jeszcze jedna rzecz, Elvis w swoich tweetach ocenił przegląd kodu Claude Code jako dość niski, ale ostatnio Claude Code wprowadził funkcję Agent Teams (wbudowana współpraca wielu Agentów), a Anthropic również pracuje nad tym kierunkiem.

Jednak pomijając te szczegóły, podejście Elvisa do architektury warstwy orkiestracji i warstwy wykonawczej rzeczywiście zasługuje na uwagę. Zero-sum game kontekstu okna to rzeczywiste ograniczenie, a użycie architektury warstwowej do rozwiązania tego problemu, pozwalając różnym AI pełnić swoje role, uważam za właściwy kierunek....