Github-ийн өдөр тутмын шилдэг нь: Бодит цагийн дуут AI туслах, бүх нийтийн хэрэгслийн хайрцаг бүтээх
Github-ийн өдөр тутмын шилдэг нь: Бодит цагийн дуут AI туслах, бүх нийтийн хэрэгслийн хайрцаг бүтээх
Та бүхэнд ийм мэдрэмж төрж байсан уу? Энгийн дуут AI туслах бүтээхийг хүссэн ч янз бүрийн асуудалд гацаж, жишээлбэл, багийн гишүүдийн дунд Python-д сайн, C++-д мэргэшсэн хүмүүс байдаг. Тэдний хөгжүүлсэн хэсгүүдийг нэгтгэхэд асуудал гарч, орчны тохиргоог хагас өдөр болтол нь оролдож, функцийг өргөжүүлэх тусам улам бүр замбараагүй болж, эцэст нь урам зориг нь барагдаж дуусдаг.
Өнөөдөр та бүхэнд TEN-Framework гэх маш хэрэгтэй бүх нийтийн хөгжүүлэлтийн хэрэгслийн хайрцгийг танилцуулж байна.

Нээлттэй эх сурвалж: https://github.com/TEN-framework/ten-framework
TEN Framework нь эдгээр төвөгтэй зүйлсийг багцалж өгсөн мэт юм. Энэ нь бодит цагийн олон хэлбэрт ярианы AI бүтээхэд зориулагдсан фрэймворк юм. Та үүнийг AI дуут туслах үйлдвэрлэлийн бэлэн шугам гэж төсөөлж болно. Дуут таних модуль, том загвар модуль, дуут нийлэгжүүлэлтийн модуль зэргийг бүгдийг нь бэлэн болгосон. Та зөвхөн өөрийн хэрэгцээнд нийцүүлэн угсрах л үлдэнэ. Энэ нь эхнээс нь дугуй хийхээс хамаагүй хялбар юм.
Энэ нь юу хийж чадах талаар яривал, эхлээд миний бодоход хамгийн хэрэгтэй хэдэн зүйлийг хэлье. Эхнийх нь олон зориулалттай дуут туслах бөгөөд RTC болон WebSocket гэсэн хоёр холболтын аргыг дэмждэг, саатал маш бага, дууны чанар ч бас сайн. Ухаалаг үйлчилгээний ажилтан эсвэл хувийн дуут туслах хийхийг хүсч байгаа эсэхээс үл хамааран энэ функц нь үндсэндээ хэрэгцээг хангаж чадна. Сонирхолтой нь энэ нь бас зураас үүсгэгчтэй бөгөөд та юу хэлнэ, түүнийг зурж, гар зураг шиг зураг үүсгэдэг. Энэ функцийг үзүүлэх эсвэл зугаа цэнгэлийн зорилгоор ашиглавал маш их алдартай байх болов уу.

Олон хүний ярианы хувьд бас тохирох шийдэл бий. Энэ нь бодит цагт яригчийг таних функцтэй бөгөөд хэн ярьж байгааг автоматаар ялгаж чаддаг. Ингэснээр хурал тэмдэглэх эсвэл ярилцлага хуулбарлах үед эмх замбараагүй болохоос санаа зовох хэрэггүй болно. Виртуал дүрсийн хувьд AI туслах ярих үед дүрийн амны хэлбэр нь дуу хоолойтой төгс синхрончлогдоно. Хоёр хэмжээст хүүхэлдэйн дүр эсвэл бодит 3D виртуал хүн байсан ч амны хэлбэр нь таарч тохирч чадна. Энэ нь виртуал хөтлөгч эсвэл хувийн туслах хөгжүүлэгчдэд маш тохиромжтой.

Хэрэв та үүнийг утсаар яриулахыг хүсвэл SIP протоколыг дэмждэг бөгөөд AI туслах нь утсаар шууд ярьж чадна. Энэ функц нь аж ахуйн нэгжийн хэрэглэгчдэд маш хэрэгтэй бөгөөд ухаалаг үйлчилгээний ажилтныг утасны системтэй холбосноор хүний хөдөлмөрийн зардлыг ихээхэн хэмнэх боломжтой. Мэдээжийн хэрэг, үндсэн дууг текст болгох функц бас бий бөгөөд дууг бодит цагт текст болгож, хурал тэмдэглэх, хадмал орчуулга үүсгэх зэрэгт ашиглах боломжтой.

Стандартчилсан процесст гадна энэ нь AI Agent-ийн загвар эсвэл янз бүрийн өргөтгөл, програмын загвар гэх мэт олон бэлэн төслийн загвартай. Жишээлбэл, LLM, TTS өргөтгөлийн загвар, мөн хэд хэдэн гол хэлний анхдагч програмын загварыг шууд ашиглах боломжтой. Шинэ төсөл үүсгэхээс эхлээд анхны демог ажиллуулахад хэдхэн минут л шаардлагатай бөгөөд цаг хэмнэхэд маш тохиромжтой.

Хэрэв та хөгжүүлэлтийн туршлагатай бол илүү дэвшилтэт аргаар тоглох боломжтой. Жишээлбэл, та өндөр хүчин чадалтай бодит цагийн дуут туслах хийж, C++ ашиглан бодит цагийн аудио, видео боловсруулалт хийж, саатлыг бага байлгаж, Python ашиглан LLM дүгнэлт хийж, туслахыг сонсож, бодож чаддаг болгож болно. Дараа нь Node.js ашиглан фронт-энд харилцан үйлчлэл хийж, хэрэглэгчдэд хялбар ажиллагааг хангаж, хөгжүүлэлтийн нийт хурд нь уламжлалт нэг хэлний хөгжүүлэлтээс 3 дахин хурдан байх болно.
Эсвэл TEN-ийн VAD дуут идэвхжүүлэлтийг илрүүлэх өргөтгөл, TTS текстээс дуу хоолой болгох өргөтгөл, LLM өргөтгөлийг хослуулан бүрэн автомат ухаалаг ярианы робот бүтээх боломжтой. Өргөтгөлүүд нь хоорондоо саадгүй холбогдож, та өөрөө төвөгтэй интеграцийн код бичих шаардлагагүй болно.
Одоогоор энэ фрэймворк нь 10000 одыг давах гэж байгаа бөгөөд сонирхож байгаа бол туршаад үзээрэй.





