Github-тағы күнделікті үздік біріншілік: Нақты уақыттағы дауыстық AI агентін, әмбебап құралдар жинағын жасау
Github-тағы күнделікті үздік біріншілік: Нақты уақыттағы дауыстық AI агентін, әмбебап құралдар жинағын жасау
Сіздерде мынадай сезім болды ма, қарапайым дауыстық AI агентін жасағыңыз келсе де, әртүрлі мәселелерге тап боласыз, мысалы, командада Python-ды жақсы білетін адам бар, ал біреуі C++-ты жетік меңгерген. Әркімнің жасаған бөліктерін біріктіргенде мәселе шығады, ортаны конфигурациялауға жарты күн кетеді, ал функцияларды кеңейту одан да қиын, ақырында ынтаңыз өшеді.
Бүгін сіздерге өте пайдалы әмбебап әзірлеу құралдар жинағы TEN-Framework-ті таныстырамын.

Ашық бастапқы мекенжайы: https://github.com/TEN-framework/ten-framework
TEN Framework осы күрделі нәрселердің бәрін сіз үшін орап қойған сияқты. Бұл нақты уақыттағы көп модальды диалогтық AI-ді құруға арналған арнайы фреймворк. Оны дайын AI дауыстық көмекшісінің өндірістік желісі ретінде елестете аласыз. Дауысты тану модулі, үлкен модель модулі, дауысты синтездеу модулі - бәрі сіз үшін дайын, сіз тек өз қажеттіліктеріңізге сәйкес оларды құрастыруыңыз керек. Бұл нөлден бастап дөңгелекті қайта ойлап табудан әлдеқайда оңай.
Оның нақты не істей алатыны туралы айтатын болсақ, мен алдымен өзіме пайдалы деп санайтын бірнешеуін айтып берейін. Біріншісі - көп мақсатты дауыстық көмекші, ол RTC және WebSocket қосылымдарын қолдайды, кідіріс төмен, дыбыс сапасы да жақсы. Интеллектуалды тұтынушыларға қызмет көрсетуді немесе жеке дауыстық көмекшіні жасағыңыз келсе де, бұл функция негізінен қажеттіліктерді қанағаттандыра алады. Қызығы, оның тағы бір Doodle генераторы бар, сіз не айтсаңыз, соны салады, қолмен салынған стильдегі Doodle жасайды. Бұл функция демонстрация немесе ойын-сауық сценарийлерінде өте танымал болуы керек.

Көп адамдық диалог сценарийлері үшін де сәйкес шешімдер бар. Оның нақты уақытта сөйлеушіні тану функциясы бар, ол кімнің сөйлеп жатқанын автоматты түрде ажырата алады, осылайша конференция жазбаларында немесе сұхбат транскрипциясында шатасудан қорықпауға болады. Виртуалды бейне бөлігінде AI көмекшісі сөйлеген кезде кейіпкердің аузының пішіні дауыспен тамаша синхрондалады. Екі өлшемді анимациялық кейіпкер болсын, мейлі шынайы 3D виртуалды адам болсын, ауыздың пішіні сәйкес келеді. Бұл виртуалды таратушыларды немесе жеке көмекшілерді жасайтын әзірлеушілер үшін өте ыңғайлы.

Егер сіз оған телефон соғуды қаласаңыз, ол SIP протоколын да қолдайды, AI көмекшісі тікелей телефон қоңырауларына жауап бере алады. Бұл функция кәсіпорын пайдаланушылары үшін өте пайдалы, интеллектуалды тұтынушыларға қызмет көрсетуді телефон жүйесімен байланыстыру арқылы көптеген еңбек шығындарын үнемдеуге болады. Әрине, оның негізгі дауысты мәтінге түрлендіру функциясы да бар, ол нақты уақытта дауысты мәтінге айналдырады, конференция хаттамалары, субтитрлер жасау сияқты сценарийлерде қолдануға болады.

Стандартталған процестерден басқа, оның ішінде көптеген дайын жоба үлгілері бар, AI Agent үлгісі болсын, әртүрлі кеңейтімдер мен қолданбалардың үлгілері болсын. Мысалы, LLM, TTS кеңейтім үлгілері, сондай-ақ бірнеше негізгі тілдердегі әдепкі қолданба үлгілерін тікелей пайдалануға болады. Жаңа жобаны құрудан бастап бірінші демоны іске қосуға дейін бірнеше минут кетеді, бұл уақытты өте үнемдейді.

Егер сіз тәжірибелі әзірлеуші болсаңыз, онда сізде кеңейтілген ойын бар, мысалы, жоғары өнімді нақты уақыттағы дауыстық көмекшіні жасауға болады, нақты уақыттағы аудио және бейне өңдеуді C++ тілінде жасаңыз, төмен кідірісті қамтамасыз етіңіз, ал LLM тұжырымдамасын Python тілінде жасаңыз, көмекшінің түсінуіне және ойлауына мүмкіндік беріңіз. Содан кейін Node.js-ті интерфейспен өзара әрекеттесу үшін пайдаланыңыз, пайдаланушыларға оңай басқаруға мүмкіндік беріңіз, бүкіл әзірлеу жылдамдығы дәстүрлі бір тілді әзірлеуден 3 есе жылдам.
Немесе TEN-нің VAD дауыстық белсенділікті анықтау кеңейтімін, TTS мәтінді дауысқа түрлендіру кеңейтімін және LLM кеңейтімін біріктіріп, толық автоматты интеллектуалды диалогтық роботты құруға болады, кеңейтімдер бір-бірімен үздіксіз байланыса алады, интеграциялау кодының күрделілігін өзіңіз жазудың қажеті жоқ.
Қазіргі уақытта бұл фреймворк 10000 жұлдызды бағындыруға жақын, қызығушылығы барлар байқап көруге болады.





