मैंने AI को सिर्फ एक चाल सिखाई, और उसने बाकी खुद ही सीख लिया...
आज मैं एक व्यावहारिक संग्रह प्रस्तुत कर रहा हूँ। दो कौशल, दो गाइड, और एक छोटी सी तरकीब, ये सभी मैं खुद उपयोग करता हूँ, और ये उपयोग के लिए तैयार हैं।
दूसरा कौशल: AI को खुद ही कौशल ढूंढना सिखाना
Find Skills यह वह है जिसकी मैं सबसे अधिक अनुशंसा करना चाहता हूँ।

कई लोगों का विचार है: मुझे AI में कई कौशल डालने हैं, एक-एक करके मैन्युअल रूप से जोड़ना है। मुझे लगता है कि यह रास्ता लंबा नहीं चलेगा। कौशल जितने अधिक होंगे, आप उन्हें प्रबंधित नहीं कर पाएंगे।
एक अलग विचार: इसे कौशल न खिलाएं, इसे खुद ढूंढने दें।
Find Skills यही करता है। यह एक "कौशल खोज इंजन" के समान है। जब AI सहायक को कोई ऐसी चीज़ मिलती है जिसे वह नहीं जानता है, तो वह खुद खोजता है, खुद स्थापित करता है, और खुद सीखता है।
यह वैसे ही है जैसे कोई व्यक्ति कुछ सीखता है। आपको सभी ज्ञान को अपने दिमाग में भरने की आवश्यकता नहीं है, आपको बस यह सीखने की आवश्यकता है कि ज्ञान कैसे खोजें और ज्ञान कैसे सीखें।
मुझे लगता है कि यह भविष्य में AI स्वचालन की दिशा है, कौशल को ढेर करना नहीं, बल्कि इसे मानव मस्तिष्क की तरह स्वायत्त रूप से सीखने देना है।
इंस्टॉल करना बहुत आसान है:
npx skills add https://github.com/vercel-labs/skills --skill find-skillsइंस्टॉल करने के बाद, आपके AI सहायक में "स्व-अध्ययन क्षमता" होगी।
दूसरा कौशल: Agent Browser
खोज और सीखने की क्षमता होना पर्याप्त नहीं है, कई कार्यों के लिए वेब पेजों को संचालित करने की आवश्यकता होती है। फ़ॉर्म भरना, डेटा निकालना, स्क्रीनशॉट लेना, बैकएंड में लॉग इन करना... Agent Browser ये सभी काम कर सकता है।
इसका तर्क बहुत स्पष्ट है: वेब पेज खोलें → तत्वों को पहचानें → क्लिक करें, भरें, चुनें → परिणाम की पुष्टि करें।
यह ब्राउज़र को संचालित करने की मानवीय प्रक्रिया के समान है, सिवाय इसके कि AI आपके लिए यह कर रहा है, सरल प्रक्रिया अभी भी अपेक्षाकृत स्थिर है, ध्यान दें कि इसमें Token खर्च होते हैं।
इंस्टॉलेशन कमांड:
npx skills add https://github.com/vercel-labs/agent-browser --skill agent-browserइंस्टॉल करने के बाद, आपके AI सहायक के पास "हाथ" होंगे, और वह सीधे ब्राउज़र को संचालित करने में सक्षम होगा।
दो व्यावहारिक गाइड
केवल कौशल होना पर्याप्त नहीं है, कुछ बुनियादी ढांचे को पहले स्थापित किया जाना चाहिए। मैंने दो गाइड लिखे हैं, दोनों GitHub रिपॉजिटरी में रखे गए हैं।
1. Browser Tool इंस्टॉलेशन गाइड
चरण-दर-चरण निर्देश कि Linux/Ubuntu वातावरण में ब्राउज़र टूल को कैसे कॉन्फ़िगर किया जाए। इसमें Chrome इंस्टॉलेशन, कॉन्फ़िगरेशन फ़ाइल अलगाव, बहु-कॉन्फ़िगरेशन प्रबंधन आदि शामिल हैं। इस चरण को पूरा करने के बाद ही Agent Browser वास्तव में चल पाएगा।
2. Web Search ऑनलाइन खोज गाइड
अपने AI सहायक को ऑनलाइन खोज करने में सक्षम बनाएं। मैंने कई तृतीय-पक्ष सेवाओं की तुलना की, और अंत में Brave Search की अनुशंसा की। कारण बहुत सरल है: मुफ्त कोटा पर्याप्त है, प्रतिक्रिया की गति तेज है, और कॉन्फ़िगरेशन जटिल नहीं है।
यदि आप चाहते हैं कि आपका AI सहायक केवल स्थानीय ज्ञान आधार में उत्तर न ढूंढे, बल्कि आपकी तरह ऑनलाइन जानकारी खोज सके, तो यह गाइड अनुसरण करने लायक है।
एक छोटी सी तरकीब: वाक् पहचान
यदि आप चाहते हैं कि आपका AI सहायक भाषण को समझ सके, तो आप ElevenLabs की वाक्-से-पाठ सेवा को एकीकृत कर सकते हैं, और पहचान प्रभाव काफी अच्छा है।
कॉन्फ़िगरेशन विधि बहुत सरल है: सीधे अपने AI सहायक से कहें "मुझे ElevenLabs Speech-to-Text कौशल स्थापित करने में मदद करें, मुझे ElevenLabs वाक् पहचान को एकीकृत करने की आवश्यकता है", और फिर इसे API Key भेजें, और यह स्वचालित रूप से आपके लिए कॉन्फ़िगर हो जाएगा।
लेकिन मुझे आपको याद दिलाना चाहिए: इस सेवा की लागत है, एक मुफ्त कोटा है लेकिन यह ज्यादा नहीं है। रोजमर्रा के परिदृश्यों में, चैट टूल में अंतर्निहित वाक्-से-पाठ का उपयोग करना पर्याप्त है। लेकिन यदि आपके पास बैच ट्रांसक्रिप्शन ऑडियो, मीटिंग रिकॉर्ड जैसे आवश्यकताएं हैं, तो आप इसे आज़मा सकते हैं।

संसाधन सारांश
उपरोक्त सभी संसाधन मेरे GitHub रिपॉजिटरी में व्यवस्थित हैं, जिन्हें आप स्वयं प्राप्त कर सकते हैं:
👉 github.com/geekjourneyx/awesome-openclaw
दो कौशल, दो गाइड, और एक छोटी सी तरकीब। ज्यादा नहीं, लेकिन ये सभी मैंने खुद चलाकर सत्यापित किए हैं।
उपकरणों की संख्या मायने नहीं रखती, महत्वपूर्ण यह है कि प्रत्येक का वास्तव में उपयोग किया जा सके।





