Github ದೈನಂದಿನ ಅತ್ಯುತ್ತಮ ಮೊದಲನೆಯದು: ನೈಜ-ಸಮಯದ ಧ್ವನಿ AI ಏಜೆಂಟ್, ಸಾರ್ವತ್ರಿಕ ಟೂಲ್ಬಾಕ್ಸ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿ
Github ದೈನಂದಿನ ಅತ್ಯುತ್ತಮ ಮೊದಲನೆಯದು: ನೈಜ-ಸಮಯದ ಧ್ವನಿ AI ಏಜೆಂಟ್, ಸಾರ್ವತ್ರಿಕ ಟೂಲ್ಬಾಕ್ಸ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿ
ನಿಮಗೆ ಈ ರೀತಿಯ ಅನುಭವವಾಗಿದೆಯೇ, ನೀವು ಸರಳವಾದ ಧ್ವನಿ AI ಏಜೆಂಟ್ ಅನ್ನು ಮಾಡಲು ಬಯಸುತ್ತೀರಿ, ಆದರೆ ವಿವಿಧ ಸಮಸ್ಯೆಗಳಿಂದ ತೊಂದರೆಗೊಳಗಾಗಿದ್ದೀರಿ, ಉದಾಹರಣೆಗೆ ತಂಡದಲ್ಲಿ ಕೆಲವರು Python ನಲ್ಲಿ ಪರಿಣಿತರಾಗಿದ್ದಾರೆ ಮತ್ತು ಕೆಲವರು C++ ನಲ್ಲಿ ಪರಿಣಿತರಾಗಿದ್ದಾರೆ. ಪ್ರತಿಯೊಬ್ಬರೂ ಅಭಿವೃದ್ಧಿಪಡಿಸಿದ ಭಾಗಗಳನ್ನು ಒಟ್ಟಿಗೆ ಸೇರಿಸಿದಾಗ ಸಮಸ್ಯೆಗಳು ಉಂಟಾಗುತ್ತವೆ, ಪರಿಸರ ಸಂರಚನೆಯು ಅರ್ಧ ದಿನ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ ಮತ್ತು ವಿಸ್ತರಣೆ ಕಾರ್ಯಗಳು ಹೆಚ್ಚು ಬದಲಾದಂತೆ ಗೊಂದಲಮಯವಾಗುತ್ತವೆ ಮತ್ತು ಅಂತಿಮವಾಗಿ ಉತ್ಸಾಹವು ಕಳೆದುಹೋಗುತ್ತದೆ.
ಇಂದು ನಾನು ನಿಮಗೆ ಸೂಪರ್-ಉಪಯುಕ್ತ ಸಾರ್ವತ್ರಿಕ ಅಭಿವೃದ್ಧಿ ಟೂಲ್ಬಾಕ್ಸ್ TEN-Framework ಅನ್ನು ಪರಿಚಯಿಸುತ್ತೇನೆ.

ಮುಕ್ತ ಸಂಪನ್ಮೂಲ ವಿಳಾಸ: https://github.com/TEN-framework/ten-framework
TEN Framework ಈ ಸಂಕೀರ್ಣ ವಿಷಯಗಳನ್ನು ನಿಮಗೆ ಪ್ಯಾಕ್ ಮಾಡಿದಂತಿದೆ. ಇದು ನೈಜ-ಸಮಯದ ಮಲ್ಟಿಮೋಡಲ್ ಸಂವಾದಾತ್ಮಕ AI ಅನ್ನು ನಿರ್ಮಿಸಲು ವಿಶೇಷವಾಗಿ ಬಳಸಲಾಗುವ ಚೌಕಟ್ಟಾಗಿದೆ. ನೀವು ಇದನ್ನು AI ಧ್ವನಿ ಸಹಾಯಕ ಉತ್ಪಾದನಾ ಮಾರ್ಗವೆಂದು ಪರಿಗಣಿಸಬಹುದು. ಧ್ವನಿ ಗುರುತಿಸುವಿಕೆ ಮಾಡ್ಯೂಲ್, ದೊಡ್ಡ ಮಾದರಿ ಮಾಡ್ಯೂಲ್, ಧ್ವನಿ ಸಂಶ್ಲೇಷಣೆ ಮಾಡ್ಯೂಲ್, ಇವೆಲ್ಲವನ್ನೂ ನಿಮಗಾಗಿ ಸಿದ್ಧಪಡಿಸಲಾಗಿದೆ. ನಿಮ್ಮ ಅಗತ್ಯಗಳಿಗೆ ಅನುಗುಣವಾಗಿ ಅವುಗಳನ್ನು ಜೋಡಿಸುವುದು ನಿಮ್ಮ ಕೆಲಸ. ಮೊದಲಿನಿಂದಲೂ ಚಕ್ರವನ್ನು ಮರುಶೋಧಿಸುವುದಕ್ಕಿಂತ ಇದು ಹೆಚ್ಚು ಸುಲಭವಾಗಿದೆ.
ಇದು ನಿರ್ದಿಷ್ಟವಾಗಿ ಏನು ಮಾಡಬಹುದು ಎಂಬುದರ ಕುರಿತು ಮಾತನಾಡುತ್ತಾ, ನಾನು ಮೊದಲು ನನಗೆ ಹೆಚ್ಚು ಪ್ರಾಯೋಗಿಕವೆಂದು ತೋರುವ ಕೆಲವು ವಿಷಯಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡುತ್ತೇನೆ. ಮೊದಲನೆಯದು ಬಹುಪಯೋಗಿ ಧ್ವನಿ ಸಹಾಯಕ, ಇದು RTC ಮತ್ತು WebSocket ಎರಡೂ ಸಂಪರ್ಕ ವಿಧಾನಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ, ಕಡಿಮೆ ಸುಪ್ತತೆ ಮತ್ತು ಉತ್ತಮ ಧ್ವನಿ ಗುಣಮಟ್ಟವನ್ನು ಹೊಂದಿದೆ. ನೀವು ಸ್ಮಾರ್ಟ್ ಗ್ರಾಹಕ ಸೇವೆ ಅಥವಾ ವೈಯಕ್ತಿಕ ಧ್ವನಿ ಸಹಾಯಕವನ್ನು ಮಾಡಲು ಬಯಸುತ್ತೀರಾ, ಈ ಕಾರ್ಯವು ಮೂಲಭೂತವಾಗಿ ಅಗತ್ಯಗಳನ್ನು ಪೂರೈಸುತ್ತದೆ. ಆಸಕ್ತಿದಾಯಕವಾಗಿ, ಇದು ಡೂಡಲ್ ಜನರೇಟರ್ ಅನ್ನು ಸಹ ಹೊಂದಿದೆ, ನೀವು ಏನು ಹೇಳುತ್ತೀರೋ ಅದನ್ನು ಚಿತ್ರಿಸುತ್ತದೆ ಮತ್ತು ಕೈಯಿಂದ ಚಿತ್ರಿಸಿದ ಶೈಲಿಯ ಡೂಡಲ್ ಅನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ. ಈ ಕಾರ್ಯವು ಪ್ರದರ್ಶನ ಅಥವಾ ಮನರಂಜನಾ ಸನ್ನಿವೇಶಗಳಲ್ಲಿ ಬಹಳ ಜನಪ್ರಿಯವಾಗಬೇಕು.

ಬಹು-ವ್ಯಕ್ತಿ ಸಂವಾದ ಸನ್ನಿವೇಶಗಳಿಗೆ ಅನುಗುಣವಾದ ಪರಿಹಾರಗಳಿವೆ. ಇದು ನೈಜ-ಸಮಯದ ಸ್ಪೀಕರ್ ಗುರುತಿಸುವಿಕೆ ಕಾರ್ಯವನ್ನು ಹೊಂದಿದೆ, ಯಾರು ಮಾತನಾಡುತ್ತಿದ್ದಾರೆ ಎಂಬುದನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಪ್ರತ್ಯೇಕಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ, ಆದ್ದರಿಂದ ಸಭೆಯ ನಿಮಿಷಗಳು ಅಥವಾ ಸಂದರ್ಶನ ಪ್ರತಿಲೇಖನದಲ್ಲಿ ಗೊಂದಲದ ಬಗ್ಗೆ ನೀವು ಚಿಂತಿಸಬೇಕಾಗಿಲ್ಲ. ವರ್ಚುವಲ್ ಇಮೇಜ್ ಭಾಗದಲ್ಲಿ, AI ಸಹಾಯಕರು ಮಾತನಾಡುವಾಗ, ಪಾತ್ರದ ಬಾಯಿಯ ಆಕಾರವು ಧ್ವನಿಯೊಂದಿಗೆ ಸಂಪೂರ್ಣವಾಗಿ ಸಿಂಕ್ರೊನೈಸ್ ಆಗಬಹುದು. ಇದು ದ್ವಿ-ಆಯಾಮದ ಅನಿಮೆ ಪಾತ್ರವಾಗಲಿ ಅಥವಾ ವಾಸ್ತವಿಕ 3D ವರ್ಚುವಲ್ ವ್ಯಕ್ತಿಯಾಗಲಿ, ಬಾಯಿಯ ಆಕಾರವು ಹೊಂದಿಕೆಯಾಗಬಹುದು. ವರ್ಚುವಲ್ ಸ್ಟ್ರೀಮರ್ಗಳು ಅಥವಾ ವೈಯಕ್ತಿಕಗೊಳಿಸಿದ ಸಹಾಯಕಗಳನ್ನು ಮಾಡುವ ಡೆವಲಪರ್ಗಳಿಗೆ ಇದು ತುಂಬಾ ಅನುಕೂಲಕರವಾಗಿದೆ.

ನೀವು ಅದನ್ನು ಫೋನ್ ಕರೆಗಳಿಗೆ ಉತ್ತರಿಸಲು ಬಯಸಿದರೆ, ಅದು SIP ಪ್ರೋಟೋಕಾಲ್ ಅನ್ನು ಸಹ ಬೆಂಬಲಿಸುತ್ತದೆ ಮತ್ತು AI ಸಹಾಯಕರು ನೇರವಾಗಿ ಫೋನ್ ಕರೆಗಳಿಗೆ ಉತ್ತರಿಸಬಹುದು. ಈ ಕಾರ್ಯವು ಕಾರ್ಪೊರೇಟ್ ಬಳಕೆದಾರರಿಗೆ ತುಂಬಾ ಪ್ರಾಯೋಗಿಕವಾಗಿದೆ. ಸ್ಮಾರ್ಟ್ ಗ್ರಾಹಕ ಸೇವೆಯನ್ನು ದೂರವಾಣಿ ವ್ಯವಸ್ಥೆಯೊಂದಿಗೆ ಸಂಪರ್ಕಿಸುವುದರಿಂದ ಸಾಕಷ್ಟು ಕಾರ್ಮಿಕ ವೆಚ್ಚವನ್ನು ಉಳಿಸಬಹುದು. ಸಹಜವಾಗಿ, ಇದು ಮೂಲಭೂತ ಧ್ವನಿಯನ್ನು ಪಠ್ಯ ಕಾರ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸುವ ಕಾರ್ಯವನ್ನು ಸಹ ಹೊಂದಿದೆ, ನೈಜ ಸಮಯದಲ್ಲಿ ಧ್ವನಿಯನ್ನು ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸುತ್ತದೆ ಮತ್ತು ಸಭೆಯ ನಿಮಿಷಗಳು ಮತ್ತು ಉಪಶೀರ್ಷಿಕೆ ಉತ್ಪಾದನೆಯಂತಹ ಸನ್ನಿವೇಶಗಳಲ್ಲಿ ಬಳಸಬಹುದು.

ಪ್ರಮಾಣಿತ ಕಾರ್ಯವಿಧಾನಗಳ ಜೊತೆಗೆ, ಇದು AI ಏಜೆಂಟ್ ಟೆಂಪ್ಲೇಟ್ಗಳು ಮತ್ತು ವಿವಿಧ ವಿಸ್ತರಣೆಗಳು ಮತ್ತು ಅಪ್ಲಿಕೇಶನ್ಗಳ ಟೆಂಪ್ಲೇಟ್ಗಳನ್ನು ಒಳಗೊಂಡಂತೆ ಅನೇಕ ಸಿದ್ಧ-ಸಿದ್ಧ ಪ್ರಾಜೆಕ್ಟ್ ಟೆಂಪ್ಲೇಟ್ಗಳನ್ನು ಸಹ ಹೊಂದಿದೆ. ಉದಾಹರಣೆಗೆ, LLM, TTS ವಿಸ್ತರಣೆ ಟೆಂಪ್ಲೇಟ್ಗಳು ಮತ್ತು ಹಲವಾರು ಮುಖ್ಯವಾಹಿನಿಯ ಭಾಷೆಗಳಲ್ಲಿ ಡೀಫಾಲ್ಟ್ ಅಪ್ಲಿಕೇಶನ್ ಟೆಂಪ್ಲೇಟ್ಗಳನ್ನು ನೇರವಾಗಿ ಬಳಸಬಹುದು. ಹೊಸ ಪ್ರಾಜೆಕ್ಟ್ ಅನ್ನು ರಚಿಸುವುದರಿಂದ ಹಿಡಿದು ಮೊದಲ ಡೆಮೊವನ್ನು ಚಲಾಯಿಸುವವರೆಗೆ, ಇದು ಕೆಲವೇ ನಿಮಿಷಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ, ಇದು ಬಹಳ ಸಮಯವನ್ನು ಉಳಿಸುತ್ತದೆ.

ನೀವು ಹಳೆಯ ಅಭಿವೃದ್ಧಿ ಪರಿಣಿತರಾಗಿದ್ದರೆ, ನೀವು ಸುಧಾರಿತ ಆಟಗಳನ್ನು ಸಹ ಹೊಂದಬಹುದು, ಉದಾಹರಣೆಗೆ ಹೆಚ್ಚಿನ ಕಾರ್ಯಕ್ಷಮತೆಯ ನೈಜ-ಸಮಯದ ಧ್ವನಿ ಸಹಾಯಕವನ್ನು ತಯಾರಿಸುವುದು, ಕಡಿಮೆ ಸುಪ್ತತೆಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ನೈಜ-ಸಮಯದ ಆಡಿಯೋ ಮತ್ತು ವೀಡಿಯೊ ಸಂಸ್ಕರಣೆಗಾಗಿ C++ ಅನ್ನು ಬಳಸುವುದು ಮತ್ತು ಸಹಾಯಕರು ಕೇಳಲು ಮತ್ತು ಯೋಚಿಸಲು ಸಾಧ್ಯವಾಗುವಂತೆ LLM ತರ್ಕಕ್ಕಾಗಿ Python ಅನ್ನು ಬಳಸುವುದು. ಬಳಕೆದಾರರು ಸುಲಭವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಲು Node.js ಅನ್ನು ಫ್ರಂಟ್-ಎಂಡ್ ಸಂವಹನಕ್ಕಾಗಿ ಬಳಸಿ. ಸಂಪೂರ್ಣ ಅಭಿವೃದ್ಧಿ ವೇಗವು ಸಾಂಪ್ರದಾಯಿಕ ಏಕ-ಭಾಷಾ ಅಭಿವೃದ್ಧಿಗಿಂತ 3 ಪಟ್ಟು ವೇಗವಾಗಿರುತ್ತದೆ.
ಅಥವಾ TEN ನ VAD ಧ್ವನಿ ಚಟುವಟಿಕೆ ಪತ್ತೆ ವಿಸ್ತರಣೆ, TTS ಪಠ್ಯದಿಂದ ಧ್ವನಿ ವಿಸ್ತರಣೆ ಮತ್ತು LLM ವಿಸ್ತರಣೆಯನ್ನು ಸಂಯೋಜಿಸಿ, ನೀವು ಸಂಪೂರ್ಣ ಸ್ವಯಂಚಾಲಿತ ಸ್ಮಾರ್ಟ್ ಸಂವಾದಾತ್ಮಕ ರೋಬೋಟ್ ಅನ್ನು ನಿರ್ಮಿಸಬಹುದು. ವಿಸ್ತರಣೆಗಳ ನಡುವೆ ತಡೆರಹಿತವಾಗಿ ಸಂಪರ್ಕಿಸಬಹುದು ಮತ್ತು ನೀವೇ ತೊಡಕಿನ ಏಕೀಕರಣ ಕೋಡ್ ಅನ್ನು ಬರೆಯಬೇಕಾಗಿಲ್ಲ.
ಪ್ರಸ್ತುತ, ಈ ಚೌಕಟ್ಟು ಶೀಘ್ರದಲ್ಲೇ 10000 ನಕ್ಷತ್ರಗಳನ್ನು ತಲುಪುತ್ತದೆ. ನಿಮಗೆ ಆಸಕ್ತಿಯಿದ್ದರೆ, ನೀವು ಅದನ್ನು ಪ್ರಯತ್ನಿಸಬಹುದು.





