Github Më i Miri i Ditës: Zhvilloni Agjentë Inteligjentë Zëri AI në Kohë Reale, Kutia e Veglave Universale
Github Më i Miri i Ditës: Zhvilloni Agjentë Inteligjentë Zëri AI në Kohë Reale, Kutia e Veglave Universale
A e keni pasur ndonjëherë këtë ndjenjë, kur doni të bëni një agjent të thjeshtë inteligjent zëri AI, por ngecni nga probleme të ndryshme, si p.sh. dikush në ekip është i mirë në Python, dikush është i aftë në C++. Pjesët e zhvilluara nga secili bashkohen dhe dalin probleme, konfigurimi i mjedisit mund të zgjasë gjysmën e ditës dhe zgjerimi i funksioneve bëhet gjithnjë e më i çrregullt, derisa entuziazmi të zhduket.
Sot do t'ju prezantoj një kuti veglash universale super të dobishme për zhvillim, TEN-Framework.

Adresa e burimit të hapur: https://github.com/TEN-framework/ten-framework
TEN Framework është sikur t'i ketë paketuar të gjitha këto gjëra komplekse për ju. Në fakt, është një kornizë e specializuar për ndërtimin e AI biseduese multimodale në kohë reale. Mund ta imagjinoni si një linjë prodhimi të gatshme për asistentë zëri AI. Moduli i njohjes së zërit, moduli i modelit të madh, moduli i sintezës së zërit, të gjitha këto janë gati për ju. Ajo që duhet të bëni është t'i montoni ato sipas nevojave tuaja. Kjo është shumë më pak e mundimshme sesa të shpikni vetë rrotën nga e para.
Duke folur për atë që mund të bëjë konkretisht, do të zgjedh disa që mendoj se janë relativisht praktike për të filluar. E para është asistenti zanor me shumë qëllime, i cili mbështet dy mënyra lidhjeje RTC dhe WebSocket, me vonesë të ulët dhe cilësi të mirë të zërit. Pavarësisht nëse doni të bëni shërbim inteligjent ndaj klientit ose asistent personal zanor, ky funksion mund të plotësojë në thelb nevojat. Ajo që është interesante është se ka edhe një gjenerator vizatimesh, çfarëdo që thoni, ai vizaton, duke gjeneruar vizatime në stilin e vizatimeve të dorës. Ky funksion duhet të jetë shumë i popullarizuar në demonstrime ose skenarë argëtimi.

Ekzistojnë gjithashtu zgjidhje korresponduese për skenarët e bisedave me shumë persona. Ai ka një funksion identifikimi të folësit në kohë reale, i cili mund të dallojë automatikisht se kush po flet, kështu që nuk ka nevojë të shqetësoheni për konfuzion kur regjistroni procesverbalet e takimeve ose transkriptoni intervistat. Për sa i përket imazhit virtual, kur asistenti AI flet, forma e gojës së personazhit mund të sinkronizohet në mënyrë të përsosur me zërin. Pavarësisht nëse është një personazh anime dy-dimensional ose një person virtual 3D realist, forma e gojës mund të përputhet. Kjo është shumë e përshtatshme për zhvilluesit që bëjnë transmetues virtualë ose asistentë të personalizuar.

Nëse doni që ai të marrë telefonata, ai gjithashtu mbështet protokollin SIP, dhe asistenti AI mund të marrë telefonata drejtpërdrejt. Ky funksion është shumë praktik për përdoruesit e ndërmarrjeve. Lidhja e shërbimit inteligjent ndaj klientit me sistemin telefonik mund të kursejë shumë kosto pune. Sigurisht, ai ka gjithashtu funksionin bazë të konvertimit të zërit në tekst, duke e kthyer zërin në tekst në kohë reale, i cili mund të përdoret në skenarë si procesverbalet e takimeve dhe gjenerimi i titrave.

Përveç proceseve të standardizuara, ai gjithashtu ka shumë shabllone projektesh të gatshme, pavarësisht nëse janë shabllone AI Agent ose shabllone të ndryshme zgjerimesh dhe aplikacionesh. Për shembull, shabllonet e zgjerimit LLM, TTS, si dhe disa shabllone aplikacionesh të parazgjedhura në gjuhë të njohura, mund të përdoren drejtpërdrejt. Nga krijimi i një projekti të ri deri te ekzekutimi i demos së parë, duhen vetëm disa minuta, duke kursyer shumë kohë.

Nëse jeni një zhvillues me përvojë, ka edhe mënyra të avancuara për të luajtur, si p.sh. krijimi i një asistenti zanor me performancë të lartë në kohë reale, duke përdorur C++ për përpunimin e audios dhe videos në kohë reale për të siguruar vonesë të ulët, duke përdorur Python për inferencën LLM, duke lejuar asistentin të dëgjojë dhe të mendojë. Dhe përdorni Node.js për ndërveprimin front-end, duke lejuar përdoruesit të operojnë lehtësisht. E gjithë shpejtësia e zhvillimit është më shumë se 3 herë më e shpejtë se zhvillimi tradicional me një gjuhë.
Ose kombinoni zgjerimin TEN VAD për zbulimin e aktivitetit të zërit, zgjerimin TTS për konvertimin e tekstit në zë dhe zgjerimin LLM për të ndërtuar një robot bisedues inteligjent plotësisht automatik. Zgjerimet mund të lidhen pa probleme pa pasur nevojë të shkruani vetë kodin e ndërlikuar të integrimit.
Për momentin, kjo kornizë është gati të kalojë 10000 yje, nëse jeni të interesuar mund ta provoni.





