Github Terbaik Harian #1: Membangun Agen AI Suara Masa Nyata, Kotak Alat Serbaguna
Github Terbaik Harian #1: Membangun Agen AI Suara Masa Nyata, Kotak Alat Serbaguna
Adakah anda pernah mengalami perasaan ini, jelas sekali ingin membuat agen AI suara yang mudah, tetapi tersekat oleh pelbagai masalah, seperti sesetengah ahli pasukan mahir dalam Python, dan ada yang mahir dalam C++. Bahagian yang dibangunkan oleh masing-masing menimbulkan masalah apabila digabungkan, konfigurasi persekitaran boleh mengambil masa yang lama, dan fungsi lanjutan menjadi semakin bersepah apabila diubah suai, dan akhirnya semangat hilang.
Hari ini saya ingin memperkenalkan kotak alat pembangunan serbaguna yang sangat berguna, TEN-Framework.

Alamat sumber terbuka: https://github.com/TEN-framework/ten-framework
TEN Framework seperti membungkus semua perkara rumit ini untuk anda. Ia sebenarnya ialah rangka kerja yang direka khusus untuk membina AI perbualan multimodal masa nyata. Anda boleh menganggapnya sebagai barisan pengeluaran pembantu suara AI yang sedia ada. Modul pengecaman suara, modul model besar, modul sintesis suara, semua ini telah disediakan untuk anda. Apa yang anda perlu lakukan ialah memasangnya mengikut keperluan anda sendiri. Ini jauh lebih mudah daripada mencipta roda dari awal.
Bercakap tentang apa yang boleh dilakukannya secara khusus, saya akan memilih beberapa yang saya rasa lebih praktikal untuk dibincangkan terlebih dahulu. Yang pertama ialah pembantu suara pelbagai guna, yang menyokong dua mod sambungan RTC dan WebSocket, dengan kependaman yang rendah dan kualiti bunyi yang baik. Sama ada anda ingin membuat khidmat pelanggan pintar atau pembantu suara peribadi, fungsi ini pada dasarnya boleh memenuhi keperluan anda. Apa yang menarik ialah ia juga mempunyai penjana coretan, apa sahaja yang anda katakan, ia akan melukis apa sahaja, menjana coretan gaya lukisan tangan. Fungsi ini sepatutnya popular dalam senario demonstrasi atau hiburan.

Senario perbualan berbilang orang juga mempunyai penyelesaian yang sepadan. Ia mempunyai fungsi pengecaman penceramah masa nyata, yang boleh membezakan secara automatik siapa yang bercakap, jadi anda tidak perlu risau tentang kekeliruan semasa merekodkan mesyuarat atau menyalin temu bual. Dari segi imej maya, apabila pembantu AI bercakap, bentuk mulut watak boleh disegerakkan dengan sempurna dengan suara. Sama ada watak anime dua dimensi atau manusia maya 3D yang realistik, bentuk mulut boleh dipadankan. Ini sangat mudah untuk pembangun yang membuat penyiar maya atau pembantu peribadi.

Jika anda mahu ia menjawab telefon, ia juga menyokong protokol SIP, dan pembantu AI boleh menjawab panggilan telefon secara langsung. Fungsi ini sangat praktikal untuk pengguna perusahaan. Menyambungkan khidmat pelanggan pintar dengan sistem telefon boleh menjimatkan banyak kos buruh. Sudah tentu, ia juga mempunyai fungsi asas pertukaran suara ke teks, menukar suara ke teks dalam masa nyata, dan senario seperti minit mesyuarat dan penjanaan sari kata boleh digunakan.

Selain proses standard, ia juga mempunyai banyak templat projek sedia ada terbina dalam, sama ada templat AI Agent, atau pelbagai templat sambungan dan aplikasi. Contohnya, templat sambungan LLM, TTS, dan beberapa templat aplikasi lalai dalam bahasa arus perdana boleh digunakan secara langsung. Dari membuat projek baharu hingga menjalankan demo pertama, ia hanya mengambil masa beberapa minit, yang sangat menjimatkan masa.

Jika anda seorang pakar pembangunan, terdapat juga permainan lanjutan, seperti membuat pembantu suara masa nyata berprestasi tinggi, menggunakan C++ untuk pemprosesan audio dan video masa nyata untuk memastikan kependaman yang rendah, menggunakan Python untuk inferens LLM untuk membolehkan pembantu memahami dan berfikir. Kemudian gunakan Node.js untuk interaksi bahagian hadapan untuk membolehkan pengguna beroperasi dengan mudah. Keseluruhan kelajuan pembangunan adalah lebih daripada 3 kali lebih pantas daripada pembangunan bahasa tunggal tradisional.
Atau gabungkan sambungan pengesanan aktiviti suara VAD TEN, sambungan teks ke suara TTS dan sambungan LLM untuk membina robot perbualan pintar automatik sepenuhnya. Sambungan boleh disambungkan dengan lancar tanpa anda perlu menulis kod integrasi yang membosankan.
Pada masa ini, rangka kerja ini akan mencapai 10000 bintang tidak lama lagi, jika anda berminat, anda boleh mencubanya.





