Github દરરોજનો શ્રેષ્ઠ પ્રથમ: રીઅલ-ટાઇમ વૉઇસ AI એજન્ટ, સાર્વત્રિક ટૂલબોક્સ વિકસાવો
Github દરરોજનો શ્રેષ્ઠ પ્રથમ: રીઅલ-ટાઇમ વૉઇસ AI એજન્ટ, સાર્વત્રિક ટૂલબોક્સ વિકસાવો
શું તમને ક્યારેય એવો અનુભવ થયો છે કે તમે એક સરળ વૉઇસ AI એજન્ટ બનાવવા માંગો છો, પરંતુ વિવિધ સમસ્યાઓમાં અટવાઈ જાઓ છો, જેમ કે તમારી ટીમમાં કોઈ Pythonમાં નિષ્ણાત છે અને કોઈ C++માં નિષ્ણાત છે. દરેકના વિકસાવેલા ભાગોને એકસાથે જોડવામાં આવે ત્યારે સમસ્યાઓ ઊભી થાય છે, પર્યાવરણ રૂપરેખાંકનમાં ઘણો સમય લાગે છે, અને વિસ્તરણ કાર્યો વધુને વધુ અવ્યવસ્થિત થાય છે, અને અંતે ઉત્સાહ ઓછો થઈ જાય છે.
આજે હું તમને એક સુપર ઉપયોગી સાર્વત્રિક વિકાસ ટૂલબોક્સ TEN-Framework રજૂ કરું છું.

ઓપન સોર્સ સરનામું: https://github.com/TEN-framework/ten-framework
TEN Framework આ જટિલ બાબતોને પેક કરવા જેવું છે. તે વાસ્તવમાં રીઅલ-ટાઇમ મલ્ટિમોડલ વાતચીત AI બનાવવા માટેનું એક ફ્રેમવર્ક છે. તમે તેને AI વૉઇસ સહાયક ઉત્પાદન લાઇનના સેટ તરીકે વિચારી શકો છો. વૉઇસ રેકગ્નિશન મોડ્યુલ, લાર્જ મોડેલ મોડ્યુલ અને વૉઇસ સિન્થેસિસ મોડ્યુલ, આ બધું તમારા માટે તૈયાર છે. તમારે ફક્ત તમારી જરૂરિયાતો અનુસાર તેમને એસેમ્બલ કરવાનું છે. શરૂઆતથી વ્હીલની શોધ કરવા કરતાં આ ઘણું સરળ છે.
તે શું કરી શકે છે તે વિશે વાત કરીએ તો, હું પહેલા થોડા વ્યવહારુ કાર્યો પસંદ કરું છું. પ્રથમ બહુહેતુક વૉઇસ સહાયક છે, જે RTC અને WebSocket બંને કનેક્શન પદ્ધતિઓને સપોર્ટ કરે છે, જેમાં ઓછો વિલંબ અને સારી ધ્વનિ ગુણવત્તા છે. સ્માર્ટ ગ્રાહક સેવા અથવા વ્યક્તિગત વૉઇસ સહાયક બનાવવા માંગતા હોવ, આ કાર્ય મૂળભૂત રીતે જરૂરિયાતોને પૂરી કરી શકે છે. રસપ્રદ વાત એ છે કે તેમાં એક ડૂડલ જનરેટર પણ છે, તમે જે કહો છો તે તે દોરે છે, હાથથી દોરેલી શૈલીના ડૂડલ્સ જનરેટ કરે છે. આ કાર્ય ડેમો અથવા મનોરંજનના દૃશ્યોમાં ખૂબ જ લોકપ્રિય હોવું જોઈએ.

મલ્ટિપલ પર્સન ડાયલોગ દૃશ્યો માટે પણ અનુરૂપ ઉકેલો છે. તેમાં રીઅલ-ટાઇમ સ્પીકર રેકગ્નિશન ફંક્શન છે, જે આપમેળે ઓળખી શકે છે કે કોણ બોલી રહ્યું છે, જેથી મીટિંગ રેકોર્ડ્સ અથવા ઇન્ટરવ્યૂ ટ્રાંસ્ક્રિપ્શનમાં મૂંઝવણ વિશે ચિંતા કરવાની જરૂર નથી. વર્ચ્યુઅલ ઇમેજની વાત કરીએ તો, જ્યારે AI સહાયક બોલે છે, ત્યારે પાત્રના હોઠની હિલચાલ વૉઇસ સાથે સંપૂર્ણ રીતે સમન્વયિત થઈ શકે છે. પછી ભલે તે દ્વિ-પરિમાણીય એનિમેશન પાત્ર હોય કે વાસ્તવિક 3D વર્ચ્યુઅલ વ્યક્તિ, હોઠની હિલચાલ મેળ ખાય છે. વર્ચ્યુઅલ સ્ટ્રીમર્સ અથવા વ્યક્તિગત સહાયકો વિકસાવનારાઓ માટે આ ખૂબ અનુકૂળ છે.

જો તમે તેને ફોન ઉપાડવા માંગતા હો, તો તે SIP પ્રોટોકોલને પણ સપોર્ટ કરે છે, અને AI સહાયક સીધો ફોન ઉપાડી શકે છે. આ કાર્ય એન્ટરપ્રાઇઝ વપરાશકર્તાઓ માટે ખૂબ જ વ્યવહારુ છે. સ્માર્ટ ગ્રાહક સેવાને ટેલિફોન સિસ્ટમ સાથે કનેક્ટ કરવાથી ઘણા માનવ ખર્ચ બચાવી શકાય છે. અલબત્ત, તેમાં મૂળભૂત વૉઇસ-ટુ-ટેક્સ્ટ ફંક્શન પણ છે, જે રીઅલ ટાઇમમાં વૉઇસને ટેક્સ્ટમાં રૂપાંતરિત કરે છે, જેનો ઉપયોગ મીટિંગ મિનિટ્સ અને સબટાઈટલ જનરેશન જેવા દૃશ્યોમાં થઈ શકે છે.

માનક પ્રક્રિયાઓ ઉપરાંત, તેમાં ઘણા બિલ્ટ-ઇન પ્રોજેક્ટ ટેમ્પ્લેટ્સ પણ છે, પછી ભલે તે AI એજન્ટ ટેમ્પ્લેટ્સ હોય અથવા વિવિધ એક્સ્ટેન્શન્સ અને એપ્લિકેશન ટેમ્પ્લેટ્સ. ઉદાહરણ તરીકે, LLM, TTS એક્સ્ટેન્શન ટેમ્પ્લેટ્સ અને કેટલીક મુખ્ય ભાષાઓમાં ડિફોલ્ટ એપ્લિકેશન ટેમ્પ્લેટ્સ સીધા ઉપયોગ કરી શકાય છે. નવો પ્રોજેક્ટ બનાવવા થી લઈને પ્રથમ ડેમો ચલાવવા સુધી, તેમાં થોડી મિનિટો લાગે છે, જે ખૂબ જ સમય બચાવે છે.

જો તમે વિકાસના અનુભવી છો, તો ત્યાં અદ્યતન ગેમપ્લે પણ છે, જેમ કે ઉચ્ચ-પ્રદર્શન રીઅલ-ટાઇમ વૉઇસ સહાયક બનાવવો, રીઅલ-ટાઇમ ઑડિયો અને વિડિયો પ્રોસેસિંગ માટે C++ નો ઉપયોગ કરવો, ઓછા વિલંબની ખાતરી કરવી અને સહાયકને સાંભળવા અને વિચારવા માટે સક્ષમ બનાવવા માટે LLM અનુમાન માટે Python નો ઉપયોગ કરવો. વપરાશકર્તાઓને સરળતાથી સંચાલિત કરવા માટે Node.js નો ઉપયોગ ફ્રન્ટ-એન્ડ ક્રિયાપ્રતિક્રિયા માટે કરો, અને સમગ્ર વિકાસની ઝડપ પરંપરાગત સિંગલ-લેંગ્વેજ ડેવલપમેન્ટ કરતા 3 ગણી વધારે છે.
અથવા TEN ના VAD વૉઇસ એક્ટિવિટી ડિટેક્શન એક્સ્ટેન્શન, TTS ટેક્સ્ટ-ટુ-સ્પીચ એક્સ્ટેન્શન અને LLM એક્સ્ટેન્શનને જોડો, અને તમે સંપૂર્ણ સ્વચાલિત સ્માર્ટ ડાયલોગ રોબોટ બનાવી શકો છો. એક્સ્ટેન્શન્સ વચ્ચે એકીકૃત રીતે કનેક્ટ થઈ શકે છે, અને તમારે જટિલ એકીકરણ કોડ લખવાની જરૂર નથી.
હાલમાં, આ ફ્રેમવર્ક ટૂંક સમયમાં 10000 સ્ટાર્સને વટાવી જશે, રસ ધરાવતા લોકો તેને અજમાવી શકે છે.





