Github καθημερινά το καλύτερο πρώτο: Ανάπτυξη έξυπνου πράκτορα AI φωνής σε πραγματικό χρόνο, εργαλειοθήκη πολλαπλών χρήσεων
Github καθημερινά το καλύτερο πρώτο: Ανάπτυξη έξυπνου πράκτορα AI φωνής σε πραγματικό χρόνο, εργαλειοθήκη πολλαπλών χρήσεων
Έχετε νιώσει ποτέ έτσι, θέλοντας να φτιάξετε έναν απλό έξυπνο πράκτορα AI φωνής, αλλά να κολλάτε σε διάφορα προβλήματα, όπως κάποιοι στην ομάδα να είναι καλοί στην Python και κάποιοι να είναι άριστοι στην C++; Τα μέρη που αναπτύχθηκαν ξεχωριστά δημιουργούν προβλήματα όταν συνδυάζονται, η διαμόρφωση του περιβάλλοντος μπορεί να διαρκέσει για μισή μέρα και η επέκταση των λειτουργιών γίνεται όλο και πιο χαοτική όσο περισσότερο τροποποιείται, μέχρι που ο ενθουσιασμός εξαντλείται.
Σήμερα, θα σας παρουσιάσουμε μια εξαιρετικά χρήσιμη εργαλειοθήκη ανάπτυξης πολλαπλών χρήσεων TEN-Framework.

Ανοιχτή διεύθυνση: https://github.com/TEN-framework/ten-framework
Το TEN Framework είναι σαν να έχει συσκευάσει όλα αυτά τα περίπλοκα πράγματα για εσάς. Στην πραγματικότητα, είναι ένα πλαίσιο ειδικά σχεδιασμένο για την κατασκευή διαλογικών AI πολλαπλών τρόπων σε πραγματικό χρόνο. Μπορείτε να το φανταστείτε ως μια έτοιμη γραμμή παραγωγής βοηθού φωνής AI. Μονάδα αναγνώρισης φωνής, μονάδα μεγάλου μοντέλου, μονάδα σύνθεσης φωνής, όλα αυτά είναι έτοιμα για εσάς. Το μόνο που έχετε να κάνετε είναι να τα συναρμολογήσετε σύμφωνα με τις δικές σας ανάγκες. Αυτό είναι πολύ πιο εύκολο από το να εφεύρετε τον τροχό από την αρχή.
Μιλώντας για το τι μπορεί να κάνει συγκεκριμένα, θα επιλέξω πρώτα μερικά που βρίσκω πιο πρακτικά. Το πρώτο είναι ένας βοηθός φωνής πολλαπλών χρήσεων, που υποστηρίζει δύο τρόπους σύνδεσης RTC και WebSocket, με χαμηλή καθυστέρηση και καλή ποιότητα ήχου. Είτε θέλετε να φτιάξετε μια έξυπνη εξυπηρέτηση πελατών είτε έναν προσωπικό βοηθό φωνής, αυτή η λειτουργία μπορεί βασικά να καλύψει τις ανάγκες σας. Είναι ενδιαφέρον ότι έχει επίσης μια γεννήτρια doodle, ό,τι λέτε, το ζωγραφίζει, δημιουργώντας ένα doodle σε στυλ χειροποίητου. Αυτή η λειτουργία θα πρέπει να είναι πολύ δημοφιλής σε σενάρια επίδειξης ή ψυχαγωγίας.

Υπάρχουν επίσης αντίστοιχες λύσεις για σενάρια διαλόγου πολλών ατόμων. Έχει λειτουργία αναγνώρισης ομιλητή σε πραγματικό χρόνο, η οποία μπορεί να διακρίνει αυτόματα ποιος μιλάει, έτσι ώστε να μην χρειάζεται να ανησυχείτε για σύγχυση κατά την καταγραφή συνεδριάσεων ή τη μεταγραφή συνεντεύξεων. Όσον αφορά την εικονική εικόνα, όταν ο βοηθός AI μιλάει, το σχήμα του στόματος του χαρακτήρα μπορεί να συγχρονιστεί τέλεια με τη φωνή. Είτε πρόκειται για έναν δισδιάστατο χαρακτήρα anime είτε για έναν ρεαλιστικό τρισδιάστατο εικονικό άνθρωπο, μπορεί να επιτευχθεί συγχρονισμός σχήματος στόματος. Αυτό είναι πολύ βολικό για τους προγραμματιστές που φτιάχνουν εικονικούς streamers ή εξατομικευμένους βοηθούς.

Εάν θέλετε να απαντάει σε τηλέφωνα, υποστηρίζει επίσης το πρωτόκολλο SIP και ο βοηθός AI μπορεί να απαντά απευθείας σε τηλεφωνήματα. Αυτή η λειτουργία είναι πολύ πρακτική για τους εταιρικούς χρήστες. Η σύνδεση της έξυπνης εξυπηρέτησης πελατών με το τηλεφωνικό σύστημα μπορεί να εξοικονομήσει σημαντικό κόστος εργασίας. Φυσικά, έχει επίσης τη βασική λειτουργία μετατροπής φωνής σε κείμενο, μετατρέποντας τη φωνή σε κείμενο σε πραγματικό χρόνο. Σενάρια όπως πρακτικά συνεδριάσεων και δημιουργία υποτίτλων μπορούν να χρησιμοποιηθούν.

Εκτός από τις τυποποιημένες διαδικασίες, έχει επίσης ενσωματωμένα πολλά έτοιμα πρότυπα έργων, είτε πρόκειται για πρότυπα AI Agent είτε για διάφορες επεκτάσεις και πρότυπα εφαρμογών. Για παράδειγμα, πρότυπα επέκτασης LLM, TTS και πολλά προεπιλεγμένα πρότυπα εφαρμογών για δημοφιλείς γλώσσες μπορούν να χρησιμοποιηθούν απευθείας. Από τη δημιουργία ενός νέου έργου έως την εκτέλεση του πρώτου demo, χρειάζονται μόνο λίγα λεπτά, εξοικονομώντας πολύ χρόνο.

Εάν είστε έμπειρος προγραμματιστής, υπάρχουν επίσης προηγμένοι τρόποι παιχνιδιού, όπως η δημιουργία ενός βοηθού φωνής σε πραγματικό χρόνο υψηλής απόδοσης, η χρήση C++ για επεξεργασία ήχου και βίντεο σε πραγματικό χρόνο για να διασφαλιστεί χαμηλή καθυστέρηση και η χρήση Python για συμπεράσματα LLM, έτσι ώστε ο βοηθός να μπορεί να ακούσει και να σκεφτεί. Στη συνέχεια, χρησιμοποιήστε το Node.js για αλληλεπίδραση frontend, έτσι ώστε οι χρήστες να μπορούν να λειτουργούν εύκολα. Η συνολική ταχύτητα ανάπτυξης είναι 3 φορές πιο γρήγορη από την παραδοσιακή ανάπτυξη σε μία γλώσσα.
Ή συνδυάστε την επέκταση ανίχνευσης δραστηριότητας φωνής VAD του TEN, την επέκταση μετατροπής κειμένου σε φωνή TTS και την επέκταση LLM για να δημιουργήσετε ένα πλήρως αυτόματο έξυπνο ρομπότ συνομιλίας. Οι επεκτάσεις μπορούν να συνδεθούν απρόσκοπτα, χωρίς να χρειάζεται να γράψετε τον περίπλοκο κώδικα ενσωμάτωσης μόνοι σας.
Επί του παρόντος, αυτό το πλαίσιο πρόκειται να ξεπεράσει τα 10000 αστέρια. Όσοι ενδιαφέρονται μπορούν να το δοκιμάσουν.





