Github-ის ყოველდღიური საუკეთესო პირველი ადგილი: შეიმუშავეთ რეალურ დროში ხმოვანი AI ინტელექტუალური აგენტი, ყოვლისმომცველი ხელსაწყოების ნაკრები
Github-ის ყოველდღიური საუკეთესო პირველი ადგილი: შეიმუშავეთ რეალურ დროში ხმოვანი AI ინტელექტუალური აგენტი, ყოვლისმომცველი ხელსაწყოების ნაკრები
გქონიათ ოდესმე ასეთი შეგრძნება, რომ გინდათ გააკეთოთ მარტივი ხმოვანი AI ინტელექტუალური აგენტი, მაგრამ სხვადასხვა პრობლემამ შეგიშალათ ხელი, მაგალითად, გუნდში არიან ადამიანები, რომლებიც კარგად ფლობენ Python-ს და არიან C++-ის ექსპერტები. მათი ცალ-ცალკე შემუშავებული ნაწილების შეერთებისას პრობლემები ჩნდება, გარემოს კონფიგურაციას შეიძლება ნახევარი დღე დასჭირდეს, ფუნქციების გაფართოება კი უფრო და უფრო არეულია და ბოლოს ენთუზიაზმი ქრება.
დღეს წარმოგიდგენთ სუპერ სასარგებლო ყოვლისმომცველ განვითარების ხელსაწყოების ნაკრებს TEN-Framework-ს.

ღია კოდის მისამართი: https://github.com/TEN-framework/ten-framework
TEN Framework თითქოს ყველა ამ რთულ საქმეს თქვენთვის აერთიანებს. ის რეალურად არის ჩარჩო, რომელიც სპეციალურად შექმნილია რეალურ დროში მრავალმოდალური დიალოგური AI-ს ასაგებად. შეგიძლიათ წარმოიდგინოთ ის, როგორც AI ხმოვანი ასისტენტის მზა საწარმოო ხაზი. ხმის ამოცნობის მოდული, დიდი მოდელის მოდული, ხმის სინთეზის მოდული, ეს ყველაფერი თქვენთვის არის მომზადებული. თქვენ მხოლოდ საკუთარი საჭიროებების შესაბამისად უნდა ააწყოთ ისინი. ეს ბევრად უფრო ადვილია, ვიდრე ნულიდან ბორბლის გამოგონება.
რაც შეეხება იმას, თუ რისი გაკეთება შეუძლია მას კონკრეტულად, ჯერ რამდენიმე პრაქტიკულს ავარჩევ და გეტყვით. პირველი არის მრავალფუნქციური ხმოვანი ასისტენტი, რომელიც მხარს უჭერს RTC და WebSocket კავშირის ორ მეთოდს, დაბალი შეყოვნებით და კარგი ხარისხის ხმით. გსურთ ჭკვიანი მომხმარებელთა მომსახურების გაკეთება თუ პირადი ხმოვანი ასისტენტი, ეს ფუნქცია ძირითადად აკმაყოფილებს მოთხოვნებს. საინტერესოა, რომ მას ასევე აქვს დუდლის გენერატორი, რასაც ამბობთ, იმას ხატავს და ქმნის ხელნაკეთი სტილის დუდლს. ეს ფუნქცია პოპულარული უნდა იყოს დემონსტრაციებში ან გასართობ სცენებში.

მრავალმხრივი დიალოგის სცენებისთვის ასევე არის შესაბამისი გადაწყვეტილებები. მას აქვს რეალურ დროში მოსაუბრის ამოცნობის ფუნქცია, რომელსაც შეუძლია ავტომატურად განასხვავოს ვინ საუბრობს, ასე რომ, შეხვედრის ჩანაწერების ან ინტერვიუების ტრანსკრიფციის დროს არ უნდა ინერვიულოთ დაბნეულობაზე. ვირტუალური იმიჯის ნაწილში, როდესაც AI ასისტენტი საუბრობს, პერსონაჟის ტუჩების ფორმა შეიძლება სრულყოფილად იყოს სინქრონიზებული ხმასთან. იქნება ეს ორგანზომილებიანი ანიმე პერსონაჟი თუ რეალისტური 3D ვირტუალური ადამიანი, ტუჩების ფორმა შეიძლება შეესაბამებოდეს. ეს ძალიან მოსახერხებელია ვირტუალური სტრიმერების ან პერსონალიზებული ასისტენტების დეველოპერებისთვის.

თუ გსურთ, რომ მან უპასუხოს ტელეფონს, ის ასევე მხარს უჭერს SIP პროტოკოლს და AI ასისტენტს შეუძლია უშუალოდ უპასუხოს ტელეფონს. ეს ფუნქცია ძალიან პრაქტიკულია საწარმოებისთვის. ჭკვიანი მომხმარებელთა მომსახურების ტელეფონის სისტემასთან დაკავშირება დაზოგავს შრომის დიდ ხარჯებს. რა თქმა უნდა, მას ასევე აქვს ხმის ტექსტად გადაქცევის ძირითადი ფუნქცია, რომელიც რეალურ დროში გარდაქმნის ხმას ტექსტად. შეხვედრის ოქმები, სუბტიტრების გენერირება და სხვა სცენები შეიძლება გამოყენებულ იქნას.

სტანდარტიზებული პროცესების გარდა, მას ასევე აქვს მრავალი ჩაშენებული პროექტის შაბლონი, იქნება ეს AI Agent-ის შაბლონი თუ სხვადასხვა გაფართოებებისა და აპლიკაციების შაბლონები. მაგალითად, LLM, TTS გაფართოების შაბლონები და რამდენიმე ძირითადი ენის ნაგულისხმევი აპლიკაციის შაბლონები, რომლებიც შეიძლება გამოყენებულ იქნას პირდაპირ. ახალი პროექტის შექმნიდან პირველი დემოს გაშვებამდე სულ რამდენიმე წუთი სჭირდება, რაც ძალიან ზოგავს დროს.

თუ განვითარების ვეტერანი ხართ, ასევე არის მოწინავე თამაშის მეთოდები, მაგალითად, შეგიძლიათ გააკეთოთ მაღალი ხარისხის რეალურ დროში ხმოვანი ასისტენტი, გამოიყენოთ C++ რეალურ დროში აუდიო და ვიდეო დამუშავებისთვის, რათა უზრუნველყოთ დაბალი შეყოვნება, გამოიყენოთ Python LLM დასკვნისთვის, რათა ასისტენტმა გაიგოს და იფიქროს. შემდეგ გამოიყენეთ Node.js ფრონტ-ენდის ურთიერთქმედებისთვის, რათა მომხმარებლებს მარტივად შეეძლოთ მუშაობა. მთლიანი განვითარების სიჩქარე 3-ჯერ მეტია, ვიდრე ტრადიციული ერთენოვანი განვითარება.
ან დააკავშირეთ TEN-ის VAD ხმის აქტივობის გამოვლენის გაფართოება, TTS ტექსტის ხმად გადაქცევის გაფართოება და LLM გაფართოება, რათა შექმნათ სრულად ავტომატური ინტელექტუალური დიალოგის რობოტი. გაფართოებებს შორის შეიძლება შეუფერხებლად დაკავშირება, თქვენ არ გჭირდებათ რთული ინტეგრაციის კოდის დაწერა.
ამჟამად, ეს ჩარჩო მალე გადააჭარბებს 10000 ვარსკვლავს, დაინტერესებულებს შეუძლიათ სცადონ.





