Githubin päivän paras ykkönen: Kehitä reaaliaikainen puhe-AI-älykkö, monipuolinen työkalupakki
Githubin päivän paras ykkönen: Kehitä reaaliaikainen puhe-AI-älykkö, monipuolinen työkalupakki
Onko teillä koskaan ollut sellainen tunne, että vaikka haluaisitte tehdä yksinkertaisen puhe-AI-älykön, teitä estävät erilaiset ongelmat, kuten se, että tiimissä joku on hyvä Pythonissa ja joku toinen hallitsee C++:n. Kun kunkin kehittämät osat yhdistetään, syntyy ongelmia, ympäristön määrittäminen voi kestää puoli päivää ja toimintojen laajentaminen muuttuu yhä sekavammaksi, kunnes lopulta into lopahtaa.
Tänään esittelen teille erittäin hyödyllisen monipuolisen kehitystyökalupakin TEN-Frameworkin.

Avoin lähdekoodi osoite: https://github.com/TEN-framework/ten-framework
TEN Framework on kuin paketoisi kaikki nämä monimutkaiset asiat puolestasi. Se on itse asiassa kehys, joka on suunniteltu erityisesti reaaliaikaisen multimodaalisen keskustelevan tekoälyn rakentamiseen. Voit ajatella sitä valmiina tekoälypuheavustajan tuotantolinjana. Puheentunnistusmoduuli, suuri kielimalli moduuli, puhesynteesimoduuli, kaikki nämä on valmisteltu sinulle. Sinun tarvitsee vain koota ne omien tarpeidesi mukaan. Tämä on paljon helpompaa kuin pyörän keksiminen alusta alkaen.
Kun puhutaan siitä, mitä se voi konkreettisesti tehdä, valitsen ensin muutaman, jotka ovat mielestäni käytännöllisiä. Ensimmäinen on monikäyttöinen puheavustaja, joka tukee sekä RTC- että WebSocket-yhteyksiä, viive on alhainen ja äänenlaatu on hyvä. Haluatpa sitten tehdä älykkään asiakaspalvelun tai henkilökohtaisen puheavustajan, tämä toiminto pystyy periaatteessa vastaamaan tarpeisiin. Mielenkiintoista on, että siinä on myös piirustusgeneraattori, joka piirtää mitä sanot ja luo käsin piirretyn tyylin piirustuksia. Tämä toiminto on varmasti suosittu demo- tai viihdekäytössä.

Myös monenkeskustelutilanteisiin on olemassa vastaavia ratkaisuja. Siinä on reaaliaikainen puhujan tunnistustoiminto, joka pystyy automaattisesti erottamaan, kuka puhuu, joten kokousmuistiinpanoja tai haastattelujen litterointia ei tarvitse pelätä. Virtuaalihahmojen osalta tekoälyavustajan puhuessa hahmon suun muoto voi synkronoitua täydellisesti puheen kanssa. Olipa kyseessä sitten kaksiulotteinen animehahmo tai realistinen 3D-virtuaalihenkilö, suun muoto voidaan saada täsmäämään. Tämä on erittäin kätevää virtuaalilähetystoiminnan harjoittajille tai henkilökohtaisten avustajien kehittäjille.

Jos haluat sen vastaavan puhelimeen, se tukee myös SIP-protokollaa, ja tekoälyavustaja voi vastata puheluihin suoraan. Tämä toiminto on erittäin hyödyllinen yrityskäyttäjille, ja älykkään asiakaspalvelun yhdistäminen puhelinjärjestelmään voi säästää paljon työvoimakustannuksia. Tietysti sillä on myös perustoiminto puheen muuntamiseksi tekstiksi, joka muuntaa puheen reaaliajassa tekstiksi, ja sitä voidaan käyttää kokousmuistiinpanoissa, tekstityksen luomisessa ja muissa tilanteissa.

Standardoitujen prosessien lisäksi siihen on sisäänrakennettu monia valmiita projektimalleja, olipa kyseessä sitten AI Agent -malli tai erilaisia laajennuksia ja sovellusmalleja. Esimerkiksi LLM-, TTS-laajennusmalleja ja useita yleisiä kielten oletussovellusmalleja voidaan käyttää suoraan. Uuden projektin luomisesta ensimmäisen demon suorittamiseen kestää vain muutama minuutti, mikä säästää paljon aikaa.

Jos olet kokenut kehittäjä, on olemassa myös edistyneitä tapoja pelata, kuten tehokkaan reaaliaikaisen puheavustajan tekeminen, C++:n käyttäminen reaaliaikaiseen ääni- ja videonkäsittelyyn alhaisen viiveen varmistamiseksi, Pythonin käyttäminen LLM-päättelyyn, jotta avustaja voi ymmärtää ja ajatella. Ja Node.js:n käyttäminen käyttöliittymän vuorovaikutukseen, jotta käyttäjät voivat helposti käyttää sitä, koko kehitysnopeus on yli 3 kertaa nopeampi kuin perinteinen yksikielinen kehitys.
Tai yhdistämällä TEN:n VAD-puhetoiminnan tunnistuslaajennuksen, TTS-teksti puheeksi -laajennuksen ja LLM-laajennuksen, voit rakentaa täysin automaattisen älykkään keskustelurobotin, laajennukset voidaan yhdistää saumattomasti, sinun ei tarvitse kirjoittaa monimutkaista integrointikoodia itse.
Nykyään tämä kehys on pian ylittämässä 10 000 tähteä, kiinnostuneet voivat kokeilla sitä.





