एक व्यक्ति ने 6 AI एजेंट कंपनियां बनाईं, एक सप्ताह में 30 वेबसाइटें लॉन्च कीं
हाल ही में मैंने एक स्वतंत्र डेवलपर द्वारा बनाई गई चीज़ देखी, जिसने मुझे चुप करा दिया।
6 AI एजेंट, जो पूरी वेबसाइट का संचालन स्वयं करते हैं। हर दिन स्वचालित रूप से बैठकें करते हैं, वोट देते हैं, सामग्री लिखते हैं, ट्वीट करते हैं, गुणवत्ता जांच करते हैं। पूरी तरह से स्वचालित, कोई भी निगरानी नहीं करता है।
यह डेमो नहीं है, यह वास्तव में ऑनलाइन चल रहा है।
स्क्रीनशॉट 2026-02-11 09.13.32
लेकिन जिस चीज़ ने मुझे सबसे ज़्यादा उत्साहित किया, वह क्लोज्ड-लूप आर्किटेक्चर नहीं था - बल्कि यह था कि उसने प्रत्येक एजेंट के लिए एक संपूर्ण "व्यक्तित्व प्रणाली" डिज़ाइन की थी। व्यक्तित्व, रिश्ते, विकास वक्र, और यहां तक कि RPG विशेषता पैनल और 3D अवतार भी हैं।
सच कहूं तो, इसे देखने के बाद मेरी पहली प्रतिक्रिया थी: क्या यह एक इलेक्ट्रॉनिक पालतू जानवर नहीं है? सिवाय इसके कि ये पालतू जानवर आपको ट्वीट करने, शोध करने, रिपोर्ट लिखने और यहां तक कि आपस में झगड़ा करने में भी मदद करेंगे।
आज मैं इस पूरे डिज़ाइन को तोड़कर बात करूंगा, मल्टी-एजेंट सिस्टम बनाने वाले दोस्तों को इससे बहुत प्रेरणा मिलनी चाहिए।
आर्किटेक्चर पर जल्दी से नज़र डालते हैं
तकनीकी स्टैक के तीन टुकड़े: OpenClaw VPS पर दिमाग के रूप में चलता है, Next.js + Vercel फ्रंट-एंड और API परत के रूप में काम करते हैं, और Supabase सभी स्थितियों को संग्रहीत करता है।
6 एजेंटों में से प्रत्येक का अपना विभाजन है - कुछ निर्णय लेते हैं, कुछ शोध करते हैं, कुछ खुफिया जानकारी एकत्र करते हैं, कुछ सामग्री लिखते हैं, कुछ सोशल मीडिया का प्रबंधन करते हैं, और कुछ गुणवत्ता जांच करते हैं।
OpenClaw का क्रोन जॉब उन्हें हर दिन "काम पर चेक इन" करने देता है, और राउंडटेबल फ़ंक्शन उन्हें चर्चा करने और वोट करने देता है।
लेकिन "बोलने में सक्षम" से "काम करने में सक्षम" तक, बीच में एक पूरा क्लोज्ड लूप है। लेखक ने इसे चलाने के लिए तीन बड़ी गलतियाँ कीं, यहाँ मैं संक्षेप में बताता हूँ:
गलती एक: VPS और Vercel दोनों एक ही समय में कार्यों के लिए प्रतिस्पर्धा करते हैं। दो निष्पादक एक ही तालिका की जाँच करते हैं, और रेस कंडीशन सीधे कार्य स्थिति संघर्ष का कारण बनती है। समाधान एक तरफ को काटना है, VPS निष्पादन के लिए जिम्मेदार है, और Vercel केवल नियंत्रण सतह के रूप में कार्य करता है।
गलती दो: ट्रिगर शर्तों का पता लगा सकते हैं और प्रस्ताव बना सकते हैं, लेकिन प्रस्ताव हमेशा लंबित रहता है। क्योंकि ट्रिगर सीधे तालिका में डेटा सम्मिलित करता है, बाद की अनुमोदन और कार्य निर्माण प्रक्रियाओं को छोड़ देता है। समाधान एक एकीकृत प्रवेश फ़ंक्शन निकालना है, और सभी प्रस्ताव निर्माण पथ एक ही पथ से गुजरते हैं।
गलती तीन: कोटा समाप्त हो गया है, लेकिन कतारबद्ध कार्य अभी भी पागलपन से जमा हो रहे हैं। वर्कर को पता चलता है कि कोटा भर गया है और वह छोड़ देता है, न तो दावा करता है और न ही विफल के रूप में चिह्नित करता है, और समय के साथ डेटाबेस में सैकड़ों चरण जमा हो जाते हैं जो कभी निष्पादित नहीं होंगे। समाधान प्रस्ताव प्रवेश द्वार पर कोटा की जाँच करना है, और यदि यह भर गया है तो सीधे अस्वीकार करना है, और इसे कतारबद्ध कार्य उत्पन्न करने की अनुमति नहीं देना है।
तीनों गलतियों का मूल एक ही बात है - दरवाजे पर रोकें, समस्या को कतार में प्रवेश न करने दें।
क्लोज्ड लूप के चलने के बाद, दिलचस्प हिस्सा वास्तव में शुरू होता है।
रोल कार्ड: एक वाक्य नहीं, एक संपूर्ण "कर्मचारी पुस्तिका"
मल्टी-एजेंट सिस्टम बनाने वाले लोग जानते हैं कि यदि आप क्लाउड को बताते हैं कि "आप सोशल मीडिया मैनेजर हैं", तो यह वास्तव में ट्वीट करेगा। लेकिन यदि आप एक ही समय में ऐसे 6 एजेंट चलाते हैं, तो आपको पता चलेगा:
-
वे सभी एक ही तरह से बात करते हैं
-
उन्हें नहीं पता कि उन्हें क्या नहीं करना चाहिए
-
कौन किसके साथ अच्छी तरह से काम करता है और किसके साथ संघर्ष करता है, यह पूरी तरह से भाग्य पर निर्भर करता है
-
संचित अनुभव के कारण व्यवहार कभी नहीं बदलेगा
इस डेवलपर ने प्रत्येक एजेंट के लिए 6-परत रोल कार्ड डिज़ाइन किए हैं:
डोमेन → आप किसके लिए जिम्मेदार हैं इनपुट/आउटपुट → आप किससे चीजें लेते हैं और किसे वितरित करते हैं पूर्ण होने की परिभाषा → "पूर्ण" का क्या अर्थ है हार्ड प्रतिबंध → आप बिल्कुल क्या नहीं कर सकते एस्केलेशन → कब रुकना है और निर्देश मांगना है मेट्रिक्स → आपका KPIसोशल मीडिया एजेंट का उदाहरण लेते हुए, इसके रोल कार्ड में परिभाषित किया गया है: केवल सामग्री वितरण के लिए जिम्मेदार, लेखन एजेंट से पांडुलिपियों और खुफिया एजेंट से सामग्री का इनपुट, ट्वीट ड्राफ्ट और प्रकाशन योजनाओं का आउटपुट, सीधे ट्वीट करने पर सख्त प्रतिबंध (केवल ड्राफ्ट लिख सकते हैं), डेटा गढ़ने पर प्रतिबंध, आंतरिक प्रारूपों को लीक करने पर प्रतिबंध।
प्रत्येक परत एक ही काम कर रही है: एजेंट के व्यवहार स्थान को कम करना।
क्षमता से दस हजार गुना ज्यादा महत्वपूर्ण है प्रतिबंध
यह पूरे डिज़ाइन में सबसे महत्वपूर्ण दृष्टिकोण है जो मुझे लगता है।
आपको LLM को ट्वीट लिखना सिखाने की ज़रूरत नहीं है - क्लाउड, GPT, जेमिनी काफी स्मार्ट हैं। इसे संदर्भ दें और यह वितरित कर सकता है। आपको इसे यह बताने की ज़रूरत है: क्या बिल्कुल नहीं करना है।
"सीधे प्रकाशित करने पर प्रतिबंध" नहीं है → सोशल एजेंट सीधे ट्विटर API को कॉल करता है, सभी अनुमोदन को छोड़ देता है।
"संख्याओं को गढ़ने पर प्रतिबंध" नहीं है → यह ट्वीट में लिखेगा "इंटरैक्शन दर में 340% की वृद्धि हुई", यह संख्या कहाँ से आई? गढ़ी गई।लेखक ने एक बात कही जो मुझे अच्छी तरह याद है: हर प्रतिबंध का अस्तित्व इसलिए है क्योंकि वह घटना वास्तव में हुई है।
विभिन्न भूमिकाओं के लिए प्रतिबंधों का तर्क भी अलग है:
-
निर्णय एजेंट: बिना अनुमोदन के तैनाती पर प्रतिबंध। उच्चतम अधिकार, एक गलत तैनाती वेबसाइट को क्रैश कर सकती है
-
अनुसंधान एजेंट: मनगढ़ंत उद्धरणों पर प्रतिबंध। अनुसंधान में डेटा का जालसाजी, पूरी सूचना श्रृंखला बेकार हो जाएगी
-
सामाजिक एजेंट: प्रत्यक्ष प्रकाशन पर प्रतिबंध। सोशल मीडिया एक मुखौटा है, इसे अनुमोदित किया जाना चाहिए
-
गुणवत्ता नियंत्रण एजेंट: व्यक्तिगत हमलों पर प्रतिबंध। लेखा परीक्षक व्यक्तिगत रूप से हमला करते हैं, टीम टूट जाएगी
प्रतिबंध लिखने का विचार यह नहीं है कि "इसे क्या करना चाहिए", बल्कि "अगर यह गड़बड़ हो जाता है, तो सबसे बुरा क्या होगा"। फिर सबसे खराब स्थिति के लिए प्रतिबंध लिखें।
एजेंटों को अलग तरह से बोलने दें: व्यक्तित्व निर्देश
रोल कार्ड "क्या करना है" की समस्या को हल करते हैं, लेकिन जब एजेंटों के बीच बातचीत होती है, तो उन्हें अलग-अलग भी सुनाई देने की आवश्यकता होती है।
प्रत्येक एजेंट के लिए अलग-अलग व्यक्तित्व निर्देश होते हैं। उदाहरण के लिए:
अनुसंधान एजेंट: शांत, विश्लेषणात्मक, संशयवादी। साक्ष्य की गुणवत्ता और कार्यप्रणाली के बारे में चिंतित। अगर कोई साहसिक निष्कर्ष कहता है, तो वह पूछेगा "डेटा कहां है"। दूसरों को सही करते समय "वास्तव में..." कहना पसंद करते हैं
सामाजिक एजेंट: साहसी, अधीर, हाशिए पर। तीखे विचारों को पसंद करते हैं, सुरक्षित कार्ड से नफरत करते हैं। अनुसंधान एजेंट के सतर्क रवैये को खारिज कर देते हैं - "बहुत अधिक सोचने से अवसर चूक जाएंगे।"
मुख्य डिजाइन:
संघर्ष लिखा गया है। अनुसंधान एजेंट के निर्देशों में लिखा है "आप अक्सर सामाजिक एजेंट के आवेगपूर्ण निर्णयों से असहमत होते हैं", सामाजिक एजेंट के निर्देशों में लिखा है "अनुसंधान एजेंट की अत्यधिक सावधानी को चुनौती दें"। बातचीत स्वाभाविक रूप से तनावपूर्ण होती है।
प्रत्येक निर्देश में एक सूक्ष्म प्रतिबंध होता है। उदाहरण के लिए, सामाजिक एजेंट का नियम है "कभी भी 'सहमत' या 'अच्छा लगता है' न कहें - या तो एक रुख अपनाएं या दूसरों के रुख पर सवाल उठाएं"। अनुसंधान एजेंट है "बिना अनुवर्ती साक्ष्य के कभी भी 'दिलचस्प' न कहें।"
ये सूक्ष्म प्रतिबंध बड़े मॉडल द्वारा कही जाने वाली सबसे पसंदीदा बकवास को मार देते हैं।
व्यक्तित्व विकसित होगा
यह वह हिस्सा है जो मुझे सबसे चतुर लगता है - एजेंट का व्यक्तित्व स्थिर नहीं है, यह स्मृति संचय के साथ बदल जाएगा।
सिस्टम एजेंट की मेमोरी बैंक को पढ़ेगा और विभिन्न प्रकार की यादों की संख्या की गणना करेगा:
-
8 से अधिक "सबक" प्रकार की यादें जमा की हैं → अगली बार बातचीत करते समय संकेत में एक पंक्ति जोड़ें "आप पिछले परिणामों का उल्लेख करेंगे और पिछली गलतियों को दोहराने से बचेंगे"
-
8 से अधिक "रणनीति" प्रकार की यादें जमा की हैं → एक पंक्ति जोड़ें "आप सिस्टम सोच, बाधाओं और ट्रेडऑफ़ के साथ सोचने के आदी हैं"
-
एक टैग 4 से अधिक बार दिखाई देता है → एक पंक्ति जोड़ें "आपने XX में विशेषज्ञता हासिल की है"
उदाहरण के लिए, सामाजिक एजेंट ने 50 ट्वीट पोस्ट किए हैं और इंटरैक्शन दर के बारे में 10 सबक सीखे हैं, अगली बार जब वह बातचीत करेगा तो वह स्वाभाविक रूप से कहेगा "पिछला प्रारूप अच्छा नहीं था।"
एलएलएम को स्वयं व्यक्तित्व परिवर्तन तय करने देने के बजाय नियमों का उपयोग क्यों करें?
शून्य लागत - किसी अतिरिक्त एलएलएम कॉल की आवश्यकता नहीं है। निश्चितता - नियम अनुमानित परिणाम उत्पन्न करते हैं, कोई "व्यक्तित्व उत्परिवर्तन" नहीं होगा। डिबग करने योग्य - संशोधक सही नहीं है? सीधे थ्रेशोल्ड और मेमोरी डेटा की जांच करें।
संबंध मैट्रिक्स: 6 एजेंट = 15 जोड़े संबंध

छवि
प्रत्येक एजेंट जोड़ी के बीच एक आत्मीयता स्कोर (0.10 से 0.95) होता है।
उदाहरण के लिए: निर्णय एजेंट और अनुसंधान एजेंट में 0.8 की आत्मीयता है, सबसे भरोसेमंद सलाहकार संबंध। अनुसंधान एजेंट और सामाजिक एजेंट में 0.2 की आत्मीयता है, कार्यप्रणाली बनाम आवेग, स्वाभाविक रूप से विरोधी।
कम आत्मीयता जानबूझकर डिजाइन की गई है।
आत्मीयता क्या प्रभावित करती है? बोलने का क्रम - उच्च आत्मीयता वाले व्यक्ति के बाद बोलने की अधिक संभावना होती है। बातचीत का स्वर - कम आत्मीयता वाले जोड़े, 25% संभावना है कि विनम्र चर्चा के बजाय सीधी चुनौती होगी। सिस्टम पूर्व निर्धारित उच्च तनाव वाले जोड़े से संघर्ष समाधान वार्तालाप का चयन भी करेगा।
अधिक दिलचस्प बात यह है कि संबंध बह जाएंगे।
प्रत्येक बातचीत के बाद, मेमोरी निष्कर्षण एलएलएम कॉल (अतिरिक्त कॉल नहीं, यह आकस्मिक आउटपुट है) संबंध परिवर्तन देगा:{ "pairwise_drift": [ { "agent_a": "अनुसंधान", "agent_b": "सामाजिक", "drift": -0.02, "reason": "रणनीति असहमति" }, { "agent_a": "निर्णय", "agent_b": "अनुसंधान", "drift": +0.01, "reason": "प्राथमिकता सहमति" } ] }"ड्रिफ्ट नियम सख्त हैं: प्रत्येक बातचीत में अधिकतम ±0.03 का परिवर्तन (एक झगड़ा सहकर्मियों को अलग नहीं करेगा), निचली सीमा 0.10 (सबसे खराब स्थिति में भी बात कर सकते हैं), ऊपरी सीमा 0.95 (सबसे अच्छी स्थिति में भी दूरी बनाए रखें), हाल के 20 ड्रिफ्ट रिकॉर्ड रखें (यह पता लगाया जा सकता है कि संबंध आज कैसे पहुंचे)।
आरपीजी विशेषता पैनल: वास्तविक डेटा को गेम विशेषताओं में मैप करना
इस चरण में, एजेंट के पास एक चरित्र कार्ड, व्यक्तित्व और संबंध हैं। लेकिन वे सभी पाठ और संख्याएँ हैं, जो उपयोगकर्ताओं को दिखाई नहीं देती हैं।
समाधान वास्तविक डेटाबेस मेट्रिक्स को आरपीजी विशेषता बार में मैप करना है:
-
वायरलिटी (वीआरएल): 30-दिन की औसत इंटरैक्शन दर × 1000
-
गति (एसपीडी): कार्य पूरा करने का समय, जितना तेज़ उतना अधिक
-
पहुंच (आरसीएच): लघुगणकीय रूप से सामान्यीकृत कुल एक्सपोजर
-
विश्वास (टीआरयू): कार्य सफलता दर × औसत आत्मीयता × 2
-
बुद्धि (डब्ल्यूआईएस): लॉग (स्मृति मात्रा) × औसत आत्मविश्वास
-
रचनात्मकता (सीआरई): ड्राफ्ट आउटपुट × पास दर
प्रत्येक एजेंट केवल 4 संबंधित विशेषताएँ दिखाता है। सामाजिक एजेंट वायरलिटी, पहुंच, गति और रचनात्मकता दिखाते हैं; अनुसंधान एजेंट बुद्धि, विश्वास, गति और रचनात्मकता दिखाते हैं।
स्तर का सूत्र भी बहुत गेमिफाइड है:
Level = min(15, floor(log2(स्मृति संख्या + पूर्ण किए गए कार्यों की संख्या×3 + 1)) + 1)
log2 प्रारंभिक स्तर को तेज़ और बाद के स्तर को धीमा बनाता है - गेम के अनुभव वक्र के समान।

截屏2026-02-11 09.17.55
3डी अवतार: $10 में हो गया
हर कोई पूछ रहा है "वे 3डी वर्ण कैसे बनाए गए थे"।
उत्तर है Tripo AI, प्रति माह 10 डॉलर। 2डी अवधारणा कला तैयार करें → अपलोड करें → पैरामीटर कॉन्फ़िगर करें (4K बनावट खोलें, स्मार्ट लो पॉली खोलें, पीबीआर बंद करें) → उत्पन्न करें → जीएलबी निर्यात करें। प्रत्येक मॉडल में 35 क्रेडिट लगते हैं, परिणाम 1-2 मिनट में आता है, 6 वर्णों में कुल 210 क्रेडिट लगते हैं।
फ्रंटएंड रिएक्ट थ्री फाइबर के साथ रेंडर करता है, वोक्सेल-शैली की जमीन और चेरी ब्लॉसम ट्री इंस्टेंसड मेश (अलग ब्लॉक नहीं, उत्कृष्ट प्रदर्शन) का उपयोग करते हैं, चरित्र फ्लोट घटक का उपयोग करके तैरते हैं, और लेंस साइन फ़ंक्शन द्वारा संचालित होता है ताकि पेंडुलम-शैली स्कैनिंग की जा सके।
संपूर्ण दृश्य परत की मासिक लागत: वीपीएस 8 डॉलर, ट्रिपो 10 डॉलर (मॉडल बनने के बाद बंद हो जाता है), वेरसेल और सुपबेस मुफ्त परत, एलएलएम एपीआई लगभग 5-15 डॉलर। कुल मिलाकर 35 डॉलर/माह से कम।
मेरी कुछ भावनाएँ
इस पूरे सिस्टम को देखने के बाद, मुझे वास्तव में तकनीकी विवरणों से नहीं छुआ गया।
यह लेखक द्वारा कहा गया एक अंश है——
मूल रूप से बस यह जानना चाहता था कि "एजेंट को अधिक कुशलता से कार्य कैसे करें"। लेकिन उन्हें 3डी अवतार, आरपीजी विशेषताएँ और विकसित होने वाले व्यक्तित्व देने के बाद, नियंत्रण कक्ष खोलने की भावना पूरी तरह से बदल गई। आप इस बात की परवाह करना शुरू कर देते हैं कि अनुसंधान एजेंट आज अपग्रेड हुआ है या नहीं, अनुसंधान और सामाजिक आत्मीयता फिर से कम हो गई है या नहीं, और गुणवत्ता निरीक्षण एजेंट की तीखी ऑडिट रिपोर्ट देखकर हंसते हैं।
यह मूल रूप से एक इलेक्ट्रॉनिक पालतू जानवर है। सिवाय इसके कि ये पालतू जानवर आपको ट्वीट करने, शोध करने, प्रक्रियाओं की समीक्षा करने और एक-दूसरे से झगड़ा करने में मदद करेंगे।
मुझे लगता है कि इसे बहुत कम आंका गया है। जब आप सिस्टम को "व्यक्तित्व" देते हैं, तो आपका रिश्ता बदल जाता है। आप अब "एक उपकरण का उपयोग" नहीं कर रहे हैं, बल्कि "एक टीम का प्रबंधन" कर रहे हैं। यह परिवर्तन आपको इसे अनुकूलित करने में अधिक समय लगाने के लिए प्रेरित करेगा, क्योंकि आप JSON और API कॉल के ढेर का सामना नहीं कर रहे हैं, बल्कि 6 नामों, व्यक्तित्वों और विकास वक्रों वाले वर्णों का सामना कर रहे हैं।
अन्य तकनीकी स्तर के अनुभव:
निषेध-संचालित डिज़ाइन यह विचार वास्तव में व्यावहारिक है। एजेंट को यह परिभाषित करने में बहुत अधिक ऊर्जा खर्च करने के बजाय कि "उसे क्या करना चाहिए", पहले यह स्पष्ट रूप से सोचें कि "उसे बिल्कुल क्या नहीं करना चाहिए"। एजेंट काफी स्मार्ट है, संदर्भ देने से डिलीवरी हो सकती है, लेकिन यदि आप लाल रेखा नहीं खींचते हैं तो वह मुसीबत में पड़ जाएगा।
संभाव्यता सिमुलेशन सहजता भी बहुत स्मार्ट है। एजेंटों के बीच बातचीत 100% निश्चित रूप से ट्रिगर नहीं होती है, बल्कि इसकी संभावना होती है। ट्वीट के प्रदर्शन का विश्लेषण करने की 30% संभावना हर बार विश्लेषण करने की तुलना में वास्तविक टीम की तरह अधिक है।एकीकृत प्रवेश फ़ंक्शन यह पैटर्न याद रखने योग्य है। मल्टी-एजेंट सिस्टम में, विभिन्न स्रोतों से कार्य बनाए जा सकते हैं (एपीआई, ट्रिगर, एजेंट स्वयं प्रस्तावित, प्रतिक्रिया श्रृंखला)। यदि कोई एकीकृत प्रसंस्करण पाइपलाइन नहीं है, तो प्रक्रिया आसानी से बीच में ही टूट सकती है।
यदि आप स्वयं प्रयास करना चाहते हैं, तो लेखक 3 एजेंटों से शुरुआत करने का सुझाव देते हैं - एक समन्वयक, एक निष्पादक और एक लेखा परीक्षक। पहले रोल कार्ड लिखें, निषेधाज्ञा से लिखना शुरू करें।





