Github Najbolji dnevni: Razvoj AI inteligentnih agenata za glas u stvarnom vremenu, univerzalni alatni okvir
Github Najbolji dnevni: Razvoj AI inteligentnih agenata za glas u stvarnom vremenu, univerzalni alatni okvir
Da li ste ikada imali osjećaj da želite napraviti jednostavnog glasovnog AI inteligentnog agenta, ali vas razni problemi zaustavljaju, na primjer, neki u timu su dobri u Pythonu, a neki su stručni u C++. Dijelovi koje su razvili se spajaju i pojavljuju se problemi, konfiguracija okruženja može trajati pola dana, a proširenje funkcija postaje sve neurednije, i na kraju se entuzijazam istroši.
Danas ću vam predstaviti super koristan univerzalni alatni okvir TEN-Framework.

Adresa otvorenog koda: https://github.com/TEN-framework/ten-framework
TEN Framework je kao da vam je sve ove složene stvari spakovao. To je zapravo okvir specijaliziran za izgradnju multimodalnih konverzacijskih AI u stvarnom vremenu. Možete ga zamisliti kao gotovu proizvodnu liniju za AI glasovne asistente. Modul za prepoznavanje glasa, modul velikog modela, modul za sintezu glasa, sve je to spremno za vas. Sve što trebate učiniti je sastaviti ih prema vlastitim potrebama. Ovo je mnogo lakše nego sami izmišljati točak.
Što se tiče toga što konkretno može učiniti, prvo ću odabrati nekoliko za koje mislim da su praktični. Prvi je višenamjenski glasovni asistent, koji podržava RTC i WebSocket načine povezivanja, s niskim kašnjenjem i dobrom kvalitetom zvuka. Bez obzira želite li napraviti inteligentnu službu za korisnike ili osobnog glasovnog asistenta, ova funkcija u osnovi može zadovoljiti potrebe. Zanimljivo je da ima i generator crteža, što god kažete, on će nacrtati, generirajući onu vrstu crteža u stilu rukopisa. Ova funkcija bi trebala biti vrlo popularna u demonstracijskim ili zabavnim scenarijima.

Postoje i odgovarajuća rješenja za scenarije razgovora s više osoba. Ima funkciju prepoznavanja govornika u stvarnom vremenu, koja može automatski razlikovati tko govori, tako da ne morate brinuti o zabuni prilikom snimanja sastanaka ili transkripcije intervjua. Što se tiče virtualnih likova, kada AI asistent govori, oblik usta lika može se savršeno sinkronizirati s glasom. Bez obzira radi li se o anime liku iz druge dimenzije ili realističnom 3D virtualnom čovjeku, oblik usta može se uskladiti. Ovo je previše zgodno za programere koji izrađuju virtualne voditelje ili personalizirane asistente.

Ako želite da odgovara na telefonske pozive, podržava i SIP protokol, a AI asistent može izravno odgovarati na telefonske pozive. Ova funkcija je vrlo praktična za poslovne korisnike. Povezivanje inteligentne službe za korisnike s telefonskim sustavom može uštedjeti mnogo troškova rada. Naravno, ima i osnovnu funkciju pretvaranja glasa u tekst, pretvarajući glas u tekst u stvarnom vremenu, a mogu se koristiti scenariji kao što su zapisnici sa sastanaka i generiranje titlova.

Osim standardiziranih procesa, ugrađeni su i mnogi gotovi predlošci projekata, bilo da se radi o predlošcima AI Agenta ili raznim predlošcima proširenja i aplikacija. Na primjer, predlošci proširenja LLM, TTS, kao i zadani predlošci aplikacija za nekoliko glavnih jezika, mogu se izravno koristiti. Od stvaranja novog projekta do pokretanja prvog demo-a, potrebno je samo nekoliko minuta, što štedi puno vremena.

Ako ste iskusni programer, postoje i napredni načini igranja, na primjer, možete napraviti glasovnog asistenta visokih performansi u stvarnom vremenu, koristiti C++ za obradu audio i video zapisa u stvarnom vremenu kako biste osigurali nisko kašnjenje, koristiti Python za LLM zaključivanje kako bi asistent mogao razumjeti i razmišljati. Zatim koristite Node.js za interakciju s prednjim krajem kako bi korisnici mogli lako upravljati, a ukupna brzina razvoja je više od 3 puta brža od tradicionalnog razvoja s jednim jezikom.
Ili kombinirajte TEN-ovo VAD proširenje za detekciju glasovne aktivnosti, TTS proširenje za pretvaranje teksta u govor i LLM proširenje, možete postaviti potpuno automatskog inteligentnog robota za razgovor, a proširenja se mogu neprimjetno povezati bez potrebe da sami pišete zamoran integracijski kod.
Trenutno će ovaj okvir uskoro premašiti 10000 zvjezdica, ako ste zainteresirani, možete ga isprobati.





