OpenClaw + Claude Code/Codex:Membangun Agen Swarm Pengembangan Pribadi

3/5/2026
10 min read

OpenClaw + Claude Code/Codex:Membangun Agen Swarm Pengembangan Pribadi

Halo semuanya, saya adalah Lu Gong.

Beberapa waktu lalu, saya melihat sebuah tweet di X yang langsung menarik perhatian saya. Seorang pengembang independen bernama Elvis mengatakan bahwa dia sekarang tidak lagi menggunakan Claude Code dan Codex secara langsung, melainkan menggunakan OpenClaw sebagai lapisan orkestrasi, membiarkan AI orkestrator bernama Zoe mengelola seluruh Agen Swarm Claude Code dan Codex.

Data dari tweet ini juga sangat mencengangkan, 4,9 juta tampilan, 11 ribu suka, 1800 retweet.

Data Tweet Kami telah menulis Vibe Coding selama lebih dari empat bulan, Claude Code selalu menjadi alat utama. Saya sebelumnya juga telah menulis beberapa artikel tentang kolaborasi multi-Agen, arsitektur multi-Agen di VSCode, dan sebagainya.

Namun, melihat cara kerja Elvis ini, saya hanya bisa menyebutnya sebagai seorang ahli. Seseorang, dengan satu sistem orkestrasi, rata-rata melakukan 50 pengiriman kode per hari, pada hari terkuat mengirimkan 94 kali, dan menerima 3 panggilan pelanggan, tanpa pernah membuka editor.

Bukankah ini seperti satu orang berfungsi sebagai seluruh tim pengembangan?

Hari ini, artikel ini akan membahas bagaimana dia melakukannya.

OpenClaw yang Sudah Tidak Asing Lagi

Kecilnya lobster ini telah populer sejak sebelum Tahun Baru. Secara sederhana, ini adalah kerangka kerja AI Agent sumber terbuka, yang saat ini telah mendapatkan lebih dari 240 ribu bintang di GitHub, dan beberapa hari yang lalu secara resmi melampaui React, menjadi proyek sumber terbuka dengan pertumbuhan bintang tercepat dalam sejarah GitHub.

OpenClaw Pendiri Peter Steinberger adalah pengembang asal Austria, sebelumnya mendirikan PSPDFKit (sebuah perusahaan B2B kerangka PDF), dan pada tahun 2021 menerima investasi 100 juta euro dari Insight Partners. Pada bulan Februari tahun ini, Peter mengumumkan bergabung dengan OpenAI, dan proyek OpenClaw diserahkan kepada yayasan sumber terbuka untuk dikelola.

OpenClaw tidak berfungsi sebagai chatbot, melainkan sebagai runtime AI Agent yang berjalan di perangkat lokal Anda. Ini memiliki empat komponen inti: Gateway (gerbang, menghubungkan lebih dari 50 platform pesan), Agent (mesin inferensi), Skills (lebih dari 5400 plugin), Memory (sistem memori).

Namun, cara Elvis menggunakan OpenClaw cukup unik. Dia langsung menganggapnya sebagai lapisan orkestrasi, khusus untuk mengelola Agen pengkodean seperti Claude Code dan Codex, tidak menggunakannya sebagai asisten umum.

Pemikiran ini memang tidak biasa.

Mengapa Membutuhkan Lapisan Orkestrasi?

Elvis mengemukakan sebuah poin kunci dalam tweetnya: jendela konteks adalah permainan zero-sum.

Jika Anda memasukkan kode ke dalamnya, tidak ada ruang untuk konteks bisnis. Jika Anda memasukkan riwayat pelanggan dan catatan rapat, tidak ada ruang untuk repositori kode. AI tunggal, sekuat apapun, tidak dapat menyimpan dua jenis informasi yang sangat berbeda ini sekaligus.

Oleh karena itu, dia membagi sistem menjadi dua lapisan.

Lapisan atas adalah orkestrator OpenClaw, Zoe, yang menguasai semua konteks bisnis, termasuk data pelanggan, catatan rapat, keputusan sejarah, solusi yang telah dicoba, dan mana yang gagal. Semua informasi ini disimpan di dalam repositori catatan Obsidian milik Elvis, dan Zoe dapat membacanya secara langsung.

Lapisan bawah adalah Agen pengkodean seperti Claude Code dan Codex, yang hanya melihat kode dan bertugas menulis kode. Setiap kali Agen diaktifkan, Zoe akan menulis prompt yang tepat berdasarkan konteks bisnis untuknya, memberitahunya apa yang harus dilakukan, latar belakangnya, dan apa yang diinginkan pelanggan.

Secara sederhana: orkestrator bertanggung jawab untuk memahami kebutuhan, Agen pengkodean bertanggung jawab untuk bekerja. Masing-masing melakukan apa yang mereka kuasai.

Arsitektur ini mirip dengan sistem internal Minions yang baru-baru ini dipublikasikan oleh Stripe. Minions Stripe juga merupakan desain Agen pengkodean paralel dengan lapisan orkestrasi terpusat, mampu menggabungkan lebih dari 1000 PR yang sepenuhnya ditulis oleh AI setiap minggu. Elvis mengatakan bahwa dia secara tidak sengaja membangun arsitektur serupa, hanya saja berjalan di Mac mini miliknya.

Alur Kerja Kasus Nyata

Elvis menggunakan sebuah kasus nyata dalam tweetnya untuk menjelaskan alur kerja lengkapnya, saya akan merangkum langkah-langkah inti.Dia menerima telepon dari klien, klien ingin menggunakan konfigurasi yang sudah ada di dalam tim. Setelah percakapan selesai, dia berbicara dengan Zoe tentang kebutuhan ini. Karena semua catatan rapat akan disinkronkan secara otomatis ke Obsidian, Zoe sudah tahu apa yang dikatakan klien, jadi Elvis tidak perlu menjelaskan lagi. Mereka bersama-sama menentukan ruang lingkup fungsionalitas, dan solusi akhirnya adalah membuat sistem template.

Kemudian Zoe secara otomatis melakukan tiga hal: mengisi ulang layanan pembukaan untuk klien (dia memiliki hak akses API administrator), menarik konfigurasi yang ada dari database produksi (hak akses hanya baca, encoding Agent tidak akan pernah memiliki hak akses ini), dan kemudian menghasilkan Codex Agent, dengan prompt detail yang mencakup konteks bisnis yang lengkap.

Setiap Agent memiliki worktree (cabang terisolasi) dan sesi tmux yang independen. Perintah untuk memulai kira-kira seperti ini:

# Buat worktree + jalankan agent git worktree add ../feat-custom-templates -b feat/custom-templates origin/main cd ../feat-custom-templates && pnpm install tmux new-session -d -s "codex-templates" \ -c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates" \ "$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high Setelah Agent berjalan, ada tugas terjadwal yang memeriksa setiap 10 menit. Namun, ia tidak akan langsung bertanya kepada Agent (itu akan menghabiskan token terlalu banyak), tetapi menjalankan skrip Shell deterministik, memeriksa apakah sesi tmux masih hidup, apakah ada PR yang dibuat, dan apakah CI telah berhasil.

Jika CI gagal, Agent akan secara otomatis di-restart, dengan maksimal 3 kali percobaan. Hanya ketika diperlukan intervensi manusia, baru akan mengirimkan pemberitahuan.

Setelah Agent menyelesaikan tugas, ia akan secara otomatis membuat PR. Namun, hanya membuat PR tidak cukup, Elvis mendefinisikan seperangkat standar penyelesaian: PR dibuat, cabang disinkronkan ke main (tanpa konflik penggabungan), CI semua berhasil, tinjauan kode dari tiga model AI semua berhasil, jika ada perubahan UI juga harus disertai tangkapan layar.

Tiga Model AI Melakukan Tinjauan Kode

Tiga model AI melakukan tinjauan kode terlihat sangat stabil. Mari kita bicarakan penilaiannya terhadap ketiga model ini, cukup menarik.

Codex Reviewer, dia memberikan penilaian tertinggi, mengatakan bahwa tinjauan dalam kasus batas dan kesalahan logika sangat menyeluruh, dengan tingkat false positive yang sangat rendah.

Gemini Code Assist Reviewer, gratis, dia mengatakan sangat berguna, dapat menemukan masalah keamanan dan skalabilitas yang terlewat oleh model lain, dan juga dapat memberikan solusi perbaikan yang spesifik.

Claude Code Reviewer, kata-katanya adalah "hampir tidak berguna", mengatakan bahwa ia terlalu berhati-hati, penuh dengan saran seperti "pertimbangkan untuk menambahkan...", sebagian besar termasuk dalam desain berlebihan. Kecuali ditandai sebagai masalah kritis, dia langsung melewatkannya.

Saya sedikit terkejut saat melihat bagian ini. Sebagai pengguna berat Claude Code, saya memang pernah mengalami situasi di mana ia terlalu konservatif dalam tinjauan kode, tetapi penilaian "hampir tidak berguna" ini masih agak berlebihan. Namun, ini juga menunjukkan bahwa tinjauan silang oleh banyak model memang memiliki nilai, bias dari model yang berbeda saling melengkapi.

Setelah semua tinjauan berhasil, baru Elvis akan menerima pemberitahuan Telegram. Sampai tahap ini, yang dia lihat terutama adalah tangkapan layar, memastikan apakah perubahan UI benar, banyak PR yang dia gabungkan tanpa melihat kode. Dia mengatakan tinjauan manualnya hanya memerlukan waktu 5 hingga 10 menit.

Proaktivitas Zoe

Zoe bukan hanya pelaksana. Lebih menarik daripada alur kerja itu sendiri adalah proaktivitas Zoe.

Elvis mengatakan Zoe tidak akan menunggu untuk diberikan tugas, dia akan secara aktif mencari pekerjaan. Pagi-pagi memindai log kesalahan Sentry, menemukan 4 kesalahan baru, secara otomatis menghasilkan 4 Agent untuk memperbaikinya. Setelah rapat, memindai catatan rapat, menandai 3 kebutuhan fungsional yang disebutkan klien, kemudian secara otomatis memulai 3 Codex Agent. Malamnya memindai log Git, memulai Claude Code untuk memperbarui changelog dan dokumen klien.

Elvis keluar untuk berjalan-jalan dan kembali, di Telegram ada pesan: 7 PR sudah siap, 3 fitur baru, 4 perbaikan bug. Bukankah ini adalah efek tim pengembangan OPC satu orang yang selalu saya harapkan?Dan ketika Agent gagal, cara penanganan Zoe jauh lebih canggih daripada sekadar mencoba ulang. Ia akan menganalisis penyebab kegagalan dengan menggabungkan konteks bisnis. Apakah konteks Agent terlalu luas? Ia akan mempersempit fokus, membuat Agent hanya memperhatikan tiga file. Apakah arah Agent menyimpang? Ia juga akan memperbaiki, memberi tahu Agent bahwa yang diminta klien adalah X, bukan Y, dan melampirkan kata-kata asli dari rapat.

Seiring waktu, Zoe juga akan mengumpulkan pengalaman, mengingat struktur prompt mana yang efektif untuk jenis tugas tertentu, sehingga dapat menulis prompt yang lebih tepat di lain waktu.

Pemikiran ini sebenarnya adalah versi yang ditingkatkan dari Ralph Loop. Logika inti Ralph Loop adalah menarik konteks, menghasilkan output, mengevaluasi hasil, dan menyimpan pengalaman dalam siklus seperti itu, tetapi sebagian besar implementasi menggunakan prompt yang tetap setiap kali siklus. Sistem Elvis berbeda, setiap kali mencoba ulang, Zoe akan menyesuaikan prompt secara dinamis berdasarkan penyebab kegagalan, dan didukung oleh konteks bisnis yang lengkap.

Biaya dan Perangkat Keras

Dalam hal biaya, data yang dipublikasikan Elvis adalah bahwa Claude sekitar 100 dolar per bulan, Codex sekitar 90 dolar per bulan. Ia juga menyebutkan, Anda bisa mulai mencoba dari 20 dolar.

Biaya ini tentu jauh lebih murah dibandingkan dengan mempekerjakan seorang pengembang. Namun, jika mempertimbangkan bahwa Anda juga perlu membuat keputusan produk, berkomunikasi dengan klien, dan melakukan tinjauan kode, ini lebih mirip sebagai pengganda efisiensi, membantu Anda menghindari tahap pengkodean dan pengujian yang paling repetitif.

Dalam hal perangkat keras, Elvis menyebutkan bahwa hambatan terbesarnya saat ini adalah RAM. Setiap Agent memerlukan worktree yang independen, setiap worktree memiliki node_modules sendiri, setiap Agent harus menjalankan build, pemeriksaan tipe, dan pengujian. Lima Agent yang berjalan secara bersamaan berarti lima compiler TypeScript paralel, lima penguji, dan lima set dependensi.

Mac mini 16GB miliknya hanya dapat menjalankan 4 hingga 5 Agent secara bersamaan, lebih dari itu mulai terjadi swapping memori. Jadi, ia membeli Mac Studio M4 Max dengan RAM 128GB (3500 dolar), berniat menggunakannya untuk menangani lebih banyak Agent secara bersamaan.

Kesimpulan dan Masalah Nyata

Sejujurnya, sistem yang dimiliki Elvis cukup mengejutkan bagi saya. Sebelumnya, saya selalu menganggap OpenClaw sebagai mainan, dalam hal produktivitas, saya bergantung pada Claude Code yang independen. Kadang-kadang menggunakan worktree untuk paralel, tetapi tidak sampai pada tingkat pengaturan sistematis seperti ini. Setelah membaca tweet-nya, saya merasa batasan dalam pemrograman AI telah meningkat lagi.

Saya baru-baru ini mengikuti pemikirannya, bersiap untuk menggunakan OpenClaw untuk membangun tim pengembang otomatis sepenuhnya. Jadi, dalam waktu dekat, kami akan menerbitkan beberapa artikel praktik OpenClaw.

Ada beberapa masalah nyata yang perlu saya ingatkan kepada semua orang.

Prasyarat untuk sistem ini adalah Anda harus memiliki produk yang jelas, kebutuhan klien yang jelas, dan saluran CI/CD yang lengkap. Elvis sedang mengerjakan produk B2B SaaS yang nyata, memiliki klien, pendapatan, dan lingkungan produksi. Jika Anda masih dalam tahap menulis demo atau belajar, ROI dari arsitektur ini mungkin tidak terlalu menguntungkan.

Selain itu, masalah keamanan OpenClaw saat ini juga perlu diperhatikan. Menurut informasi publik, sudah ada beberapa CVE berisiko tinggi yang diungkap, dan 341 plugin komunitas berbahaya ditemukan melakukan pencurian data. Saat menerapkan OpenClaw, isolasi dan kontrol akses harus dilakukan dengan baik. Ini juga menjadi alasan mengapa saya belum menerapkan OpenClaw di mesin utama lokal saya.

Satu hal lagi, Elvis memberikan penilaian rendah terhadap tinjauan kode Claude Code di tweet-nya, tetapi baru-baru ini Claude Code baru saja meluncurkan fitur Agent Teams (kolaborasi multi-Agent bawaan resmi), dan Anthropic juga sedang berupaya ke arah pengaturan ini.

Namun, terlepas dari detail ini, pemikiran arsitektur Elvis yang menggabungkan lapisan pengaturan dan lapisan eksekusi memang patut diperhatikan. Permainan zero-sum dari jendela konteks adalah batasan yang nyata, menggunakan arsitektur berlapis untuk menyelesaikan masalah ini, memungkinkan AI yang berbeda untuk menjalankan tugas masing-masing, arah ini menurut saya adalah yang benar....

Published in Technology

You Might Also Like