Github щоденний найкращий перший: Розробка AI-агента з голосом у реальному часі, універсальний набір інструментів
Github щоденний найкращий перший: Розробка AI-агента з голосом у реальному часі, універсальний набір інструментів
Чи відчували ви коли-небудь, що хочете створити простого голосового AI-агента, але застрягаєте через різні проблеми, наприклад, хтось у команді добре знає Python, а хтось добре володіє C++. Частини, розроблені окремо, викликають проблеми при об'єднанні, налаштування середовища може зайняти пів дня, а розширення функцій стає все більш заплутаним, і врешті-решт ентузіазм згасає.
Сьогодні я представляю вам надзвичайно корисний універсальний набір інструментів для розробки TEN-Framework.

Адреса відкритого коду: https://github.com/TEN-framework/ten-framework
TEN Framework ніби запакував усі ці складні речі для вас. Насправді це фреймворк, спеціально розроблений для створення багатомодальних діалогових AI у реальному часі. Ви можете уявити його як готову виробничу лінію голосових помічників AI. Модуль розпізнавання голосу, модуль великої моделі, модуль синтезу голосу - все це підготовлено для вас. Все, що вам потрібно зробити, це зібрати їх відповідно до ваших потреб. Це набагато простіше, ніж винаходити колесо з нуля.
Що стосується того, що він може робити конкретно, я спочатку виберу кілька, які я вважаю більш практичними. Перший - це багатоцільовий голосовий помічник, який підтримує два типи з'єднання: RTC і WebSocket, з низькою затримкою і хорошою якістю звуку. Незалежно від того, чи хочете ви створити інтелектуальну службу підтримки клієнтів або особистого голосового помічника, ця функція в основному може задовольнити ваші потреби. Цікаво, що у нього є генератор малюнків, він малює те, що ви говорите, і генерує малюнки в стилі ручного малювання. Ця функція повинна бути дуже популярною в демонстраційних або розважальних сценаріях.

Для сценаріїв багатосторонньої розмови також є відповідні рішення. Він має функцію розпізнавання мовця в реальному часі, яка може автоматично розрізняти, хто говорить, тому вам не потрібно турбуватися про плутанину під час запису зустрічей або транскрибування інтерв'ю. Що стосується віртуального образу, коли AI-помічник говорить, форма рота персонажа може ідеально синхронізуватися з голосом. Незалежно від того, чи це двовимірний аніме-персонаж, чи реалістична 3D-віртуальна людина, форма рота може бути правильною. Це дуже зручно для розробників, які створюють віртуальних стримерів або персоналізованих помічників.

Якщо ви хочете, щоб він відповідав на телефонні дзвінки, він також підтримує протокол SIP, і AI-помічник може безпосередньо відповідати на телефонні дзвінки. Ця функція дуже практична для корпоративних користувачів. Підключення інтелектуальної служби підтримки клієнтів до телефонної системи може заощадити багато витрат на оплату праці. Звичайно, він також має базову функцію перетворення голосу в текст, яка може перетворювати голос у текст у реальному часі, і її можна використовувати для протоколів зустрічей, створення субтитрів та інших сценаріїв.

Окрім стандартизованих процесів, він також має багато вбудованих готових шаблонів проектів, будь то шаблони AI Agent або шаблони різних розширень і додатків. Наприклад, шаблони розширень LLM, TTS, а також кілька шаблонів додатків за замовчуванням для основних мов, які можна використовувати безпосередньо. Від створення нового проекту до запуску першого демо займає всього кілька хвилин, що дуже економить час.

Якщо ви досвідчений розробник, є також розширені способи гри, наприклад, ви можете створити високопродуктивного голосового помічника в реальному часі, використовувати C++ для обробки аудіо та відео в реальному часі, щоб забезпечити низьку затримку, використовувати Python для висновування LLM, щоб помічник міг розуміти та думати. Потім використовуйте Node.js для взаємодії з інтерфейсом, щоб користувачі могли легко працювати, і вся швидкість розробки більш ніж у 3 рази вища, ніж традиційна розробка однією мовою.
Або об'єднайте розширення TEN VAD для виявлення голосової активності, розширення TTS для перетворення тексту в мову та розширення LLM, щоб створити повністю автоматичного інтелектуального діалогового робота. Розширення можуть безперешкодно з'єднуватися, і вам не потрібно писати складний код інтеграції самостійно.
Зараз цей фреймворк ось-ось подолає позначку в 10000 зірок, зацікавлені можуть спробувати.





