Github पर दैनिक सर्वश्रेष्ठ पहला: रीयल-टाइम वॉयस AI इंटेलिजेंट एजेंट, यूनिवर्सल टूलबॉक्स विकसित करें
Github पर दैनिक सर्वश्रेष्ठ पहला: रीयल-टाइम वॉयस AI इंटेलिजेंट एजेंट, यूनिवर्सल टूलबॉक्स विकसित करें
क्या आप लोगों को कभी ऐसा महसूस हुआ है कि आप स्पष्ट रूप से एक सरल वॉयस AI इंटेलिजेंट एजेंट बनाना चाहते हैं, लेकिन विभिन्न समस्याओं से जूझ रहे हैं, जैसे कि टीम में कुछ लोग Python में अच्छे हैं और कुछ C++ में कुशल हैं। प्रत्येक द्वारा विकसित भागों को एक साथ जोड़ने पर समस्याएँ आती हैं, पर्यावरण कॉन्फ़िगरेशन में आधा दिन लग सकता है, और विस्तार फ़ंक्शन को संशोधित करना और भी अधिक गड़बड़ हो जाता है, और अंत में उत्साह समाप्त हो जाता है।
आज मैं आपको एक सुपर उपयोगी यूनिवर्सल डेवलपमेंट टूलबॉक्स TEN-Framework से परिचित कराता हूँ।

ओपन सोर्स पता: https://github.com/TEN-framework/ten-framework
TEN Framework इन जटिल चीजों को आपके लिए पैकेज करने जैसा है। यह वास्तव में एक ऐसा ढांचा है जिसका उपयोग विशेष रूप से रीयल-टाइम मल्टीमॉडल संवादात्मक AI बनाने के लिए किया जाता है। आप इसे AI वॉयस असिस्टेंट प्रोडक्शन लाइन के एक तैयार सेट के रूप में सोच सकते हैं। वॉयस रिकग्निशन मॉड्यूल, लार्ज मॉडल मॉड्यूल, वॉयस सिंथेसिस मॉड्यूल, ये सभी आपके लिए तैयार हैं। आपको बस अपनी आवश्यकताओं के अनुसार उन्हें इकट्ठा करना है। यह स्क्रैच से पहिया बनाने से कहीं अधिक परेशानी बचाता है।
जहां तक यह क्या कर सकता है, मैं पहले कुछ ऐसे कार्यों को चुनूंगा जो मुझे अधिक व्यावहारिक लगते हैं। पहला एक बहुउद्देशीय वॉयस असिस्टेंट है जो RTC और WebSocket दोनों कनेक्शन विधियों का समर्थन करता है, जिसमें बहुत कम विलंबता और अच्छी ध्वनि गुणवत्ता है। चाहे आप एक बुद्धिमान ग्राहक सेवा या एक व्यक्तिगत वॉयस असिस्टेंट बनाना चाहते हों, यह फ़ंक्शन मूल रूप से आपकी आवश्यकताओं को पूरा कर सकता है। दिलचस्प बात यह है कि इसमें एक डूडल जनरेटर भी है, आप जो कहते हैं वह उसे चित्रित करता है, उस प्रकार की हाथ से खींची गई शैली के डूडल उत्पन्न करता है। यह फ़ंक्शन प्रदर्शन या मनोरंजन परिदृश्यों में बहुत लोकप्रिय होना चाहिए।

बहु-व्यक्ति वार्तालाप परिदृश्यों के लिए भी संबंधित समाधान हैं। इसमें रीयल-टाइम स्पीकर पहचान फ़ंक्शन है, जो स्वचालित रूप से यह पहचान सकता है कि कौन बोल रहा है, ताकि आपको मीटिंग रिकॉर्ड या साक्षात्कार ट्रांसक्रिप्शन के बारे में भ्रमित होने की चिंता न हो। वर्चुअल इमेज के संदर्भ में, जब AI असिस्टेंट बोलता है, तो चरित्र का मुंह पूरी तरह से आवाज के साथ सिंक्रनाइज़ हो सकता है। चाहे वह द्वि-आयामी एनीमे चरित्र हो या एक यथार्थवादी 3D वर्चुअल व्यक्ति, मुंह के आकार को संरेखित किया जा सकता है। यह वर्चुअल एंकर या व्यक्तिगत सहायकों को विकसित करने वालों के लिए बहुत सुविधाजनक है।

यदि आप चाहते हैं कि यह फोन उठाए, तो यह SIP प्रोटोकॉल का भी समर्थन करता है, और AI असिस्टेंट सीधे फोन का जवाब दे सकता है। यह फ़ंक्शन उद्यम उपयोगकर्ताओं के लिए बहुत व्यावहारिक है। बुद्धिमान ग्राहक सेवा को टेलीफोन सिस्टम से कनेक्ट करने से बहुत सारी श्रम लागत बच सकती है। बेशक, इसमें बुनियादी वॉयस-टू-टेक्स्ट फ़ंक्शन भी है, जो रीयल-टाइम में आवाज को टेक्स्ट में बदल सकता है, जिसका उपयोग मीटिंग मिनट, उपशीर्षक पीढ़ी और अन्य परिदृश्यों में किया जा सकता है।

मानकीकृत प्रक्रियाओं के अलावा, इसमें कई अंतर्निहित परियोजना टेम्पलेट भी हैं, चाहे वह AI एजेंट का टेम्पलेट हो या विभिन्न एक्सटेंशन और एप्लिकेशन के टेम्पलेट। उदाहरण के लिए, LLM, TTS एक्सटेंशन टेम्पलेट और कई मुख्यधारा की भाषाओं में डिफ़ॉल्ट एप्लिकेशन टेम्पलेट सभी सीधे उपयोग किए जा सकते हैं। एक नई परियोजना बनाने से लेकर पहले डेमो को चलाने तक, इसमें केवल कुछ मिनट लगते हैं, जो बहुत समय बचाता है।

यदि आप एक अनुभवी डेवलपर हैं, तो उन्नत गेमप्ले भी हैं, जैसे कि एक उच्च-प्रदर्शन रीयल-टाइम वॉयस असिस्टेंट बनाना, रीयल-टाइम ऑडियो और वीडियो प्रोसेसिंग के लिए C++ का उपयोग करना, कम विलंबता सुनिश्चित करना, और असिस्टेंट को समझने और सोचने में सक्षम बनाने के लिए LLM अनुमान के लिए Python का उपयोग करना। फिर उपयोगकर्ता को आसानी से संचालित करने की अनुमति देने के लिए फ्रंट-एंड इंटरैक्शन के लिए Node.js का उपयोग करें। संपूर्ण विकास गति पारंपरिक एकल-भाषा विकास की तुलना में 3 गुना अधिक है।
या TEN के VAD वॉयस एक्टिविटी डिटेक्शन एक्सटेंशन, TTS टेक्स्ट-टू-वॉयस एक्सटेंशन और LLM एक्सटेंशन को मिलाकर, आप एक पूरी तरह से स्वचालित बुद्धिमान वार्तालाप रोबोट बना सकते हैं। एक्सटेंशन के बीच निर्बाध रूप से जोड़ा जा सकता है, और आपको जटिल एकीकरण कोड लिखने की आवश्यकता नहीं है।
वर्तमान में, यह ढांचा जल्द ही 10000 सितारों को पार कर जाएगा, यदि आप रुचि रखते हैं तो आप इसे आज़मा सकते हैं।





