मी AI ला फक्त एक युक्ती शिकवली, आणि तिने बाकीचे स्वतःच शिकले...
आज मी एक प्रॅक्टिकल संग्रह सादर करत आहे. दोन कौशल्ये, दोन मार्गदर्शक तत्त्वे आणि एक छोटी युक्ती, हे सर्व मी स्वतः वापरतो आणि ते लगेच वापरता येतील.
दुसरे कौशल्य: AI ला स्वतः कौशल्ये शोधायला शिकवणे
Find Skills हे मी सर्वात जास्त शिफारस करू इच्छितो.

अनेक लोकांचा दृष्टिकोन असा आहे की: मला AI मध्ये अनेक कौशल्ये टाकायची आहेत, एक-एक करून मॅन्युअली (Manually) ॲड (Add) करायची आहेत. मला वाटत नाही की हा मार्ग फार दूर जाईल. कौशल्ये वाढतच जातील आणि तुम्ही त्यांना व्यवस्थित करू शकणार नाही.
एक वेगळा विचार करा: त्याला कौशल्ये देऊ नका, त्याला स्वतःच शोधू द्या.
Find Skills हेच काम करते. हे एक 'कौशल्य सर्च इंजिन' (Skill Search Engine) आहे. AI सहाय्यकाला एखादे काम जमत नसेल, तर ते स्वतःच शोधते, स्वतःच इन्स्टॉल (Install) करते आणि स्वतःच शिकते.
जसे एखादी व्यक्ती काहीतरी शिकते. तुम्हाला सर्व ज्ञान डोक्यात भरण्याची गरज नाही, तुम्हाला फक्त ज्ञान कसे शोधायचे आणि कसे शिकायचे हे शिकण्याची गरज आहे.
मला वाटते की भविष्यात AI ऑटोमेशनची (Automation) हीच दिशा असेल, कौशल्ये जमा करणे नाही, तर मानवी मेंदूप्रमाणे स्वायत्तपणे शिकणे.
इन्स्टॉल (Install) करणे खूप सोपे आहे:
npx skills add https://github.com/vercel-labs/skills --skill find-skills इन्स्टॉल (Install) केल्यानंतर, तुमच्या AI सहाय्यकाला 'स्वतः शिकण्याची क्षमता' येईल.
दुसरे कौशल्य: Agent Browser
शोधण्याची आणि शिकण्याची क्षमता असूनही, अनेक कामांसाठी वेबपेज (Webpage) ऑपरेट (Operate) करणे आवश्यक आहे. फॉर्म (Form) भरणे, डेटा (Data) काढणे, स्क्रीनशॉट (Screenshot) घेणे, बॅकएंडला (Backend) लॉग इन (Log in) करणे... ही सर्व कामे Agent Browser करू शकते.
याचे लॉजिक (Logic) अगदी स्पष्ट आहे: वेबपेज (Webpage) उघडा → घटक ओळखा → क्लिक (Click) करा, भरा, निवडा → परिणामांची खात्री करा.
ही प्रक्रिया माणूस ब्राउझर (Browser) वापरतो तशीच आहे, फक्त AI तुमच्यासाठी हे करते, साधी प्रक्रिया तुलनेने स्थिर आहे, फक्त Token जास्त लागतात हे लक्षात ठेवा.
इन्स्टॉलेशन कमांड (Installation command):
npx skills add https://github.com/vercel-labs/agent-browser --skill agent-browser इन्स्टॉल (Install) केल्यानंतर, तुमच्या AI सहाय्यकाला 'हात' मिळतील आणि ते थेट ब्राउझर (Browser) ऑपरेट (Operate) करू शकतील.
दोन प्रॅक्टिकल (Practical) मार्गदर्शक तत्त्वे
फक्त कौशल्ये असून चालणार नाही, काही पायाभूत सुविधा आधी तयार कराव्या लागतील. मी दोन मार्गदर्शक तत्त्वे लिहिली आहेत, ती दोन्ही GitHub रिपॉजिटरीमध्ये (Repository) ठेवली आहेत.
1. Browser Tool इन्स्टॉलेशन (Installation) मार्गदर्शक
Linux/Ubuntu वातावरणात ब्राउझर टूल (Browser Tool) कसे कॉन्फिगर (Configure) करायचे हे स्टेप बाय स्टेप (Step by Step) शिकवते. Chrome इन्स्टॉलेशन (Installation), कॉन्फिगरेशन (Configuration) फाइल (File) आयसोलेशन (Isolation), मल्टी-कॉन्फिगरेशन (Multi-configuration) व्यवस्थापन इत्यादींचा समावेश आहे. ही पायरी पूर्ण झाल्यावर, Agent Browser खऱ्या अर्थाने सुरू होऊ शकेल.
2. Web Search ऑनलाइन (Online) शोध मार्गदर्शक
तुमच्या AI सहाय्यकाला ऑनलाइन (Online) शोध घेण्यास सक्षम करा. मी काही थर्ड-पार्टी (Third-party) सेवांची तुलना केली आणि शेवटी Brave Search ची शिफारस केली. कारण अगदी सोपे आहे: विनामूल्य मर्यादा पुरेशी आहे, प्रतिसाद वेगवान आहे आणि कॉन्फिगरेशन (Configuration) देखील क्लिष्ट नाही.
जर तुम्हाला AI सहाय्यकाने फक्त लोकल (Local) नॉलेज बेसमध्ये (Knowledge base) उत्तरे शोधू नयेत, तर तुमच्यासारखे इंटरनेटवर (Internet) माहिती शोधावी असे वाटत असेल, तर हे मार्गदर्शक वाचून तुम्ही ते फॉलो (Follow) करू शकता.
एक छोटी युक्ती: व्हॉइस रिकग्निशन (Voice Recognition)
जर तुम्हाला AI सहाय्यकाला बोललेले ऐकू यावे असे वाटत असेल, तर तुम्ही ElevenLabs ची स्पीच-टू-टेक्स्ट (Speech-to-Text) सेवा वापरू शकता, ओळखण्याची क्षमता चांगली आहे.
कॉन्फिगर (Configure) करण्याची पद्धत अगदी सोपी आहे: तुमच्या AI सहाय्यकाला थेट सांगा "मला ElevenLabs Speech-to-Text कौशल्य इन्स्टॉल (Install) करायला मदत कर, मला ElevenLabs व्हॉइस रिकग्निशन (Voice Recognition) ॲक्सेस (Access) करायचे आहे", आणि नंतर त्याला API Key पाठवा, ते आपोआप कॉन्फिगर (Configure) होईल.
पण एक गोष्ट लक्षात ठेवा: या सेवेसाठी पैसे लागतात, विनामूल्य मर्यादा आहे पण ती जास्त नाही. रोजच्या वापरात, चॅटिंग ॲपमध्ये (Chatting app) असलेले व्हॉइस-टू-टेक्स्ट (Voice-to-Text) पुरेसे आहे. पण जर तुम्हाला मोठ्या प्रमाणात ऑडिओ (Audio) ट्रान्सक्राइब (Transcribe) करायचा असेल किंवा मीटिंग रेकॉर्ड्स (Meeting records) ट्रान्सक्राइब (Transcribe) करायचे असतील, तर तुम्ही याचा अनुभव घेऊ शकता.

संसाधनांचा (Resources) संग्रह
वर दिलेले सर्व संसाधने (Resources) माझ्या GitHub रिपॉजिटरीमध्ये (Repository) उपलब्ध आहेत, गरज असेल तर घ्या:
👉 github.com/geekjourneyx/awesome-openclaw
दोन कौशल्ये, दोन मार्गदर्शक तत्त्वे आणि एक छोटी युक्ती. जास्त नाही, पण हे सर्व मी स्वतः वापरून पाहिले आहे.
साधने जास्त असण्यात अर्थ नाही, महत्त्वाचे हे आहे की प्रत्येक साधन खऱ्या अर्थाने वापरले गेले पाहिजे.





