Github-এর দৈনিক সেরা প্রথম: রিয়েল-টাইম ভয়েস এআই ইন্টেলিজেন্ট এজেন্ট তৈরি করুন, সর্ব-উদ্দেশ্য সরঞ্জাম বাক্স
Github-এর দৈনিক সেরা প্রথম: রিয়েল-টাইম ভয়েস এআই ইন্টেলিজেন্ট এজেন্ট তৈরি করুন, সর্ব-উদ্দেশ্য সরঞ্জাম বাক্স
আপনাদের কি কখনও এমন অনুভূতি হয়েছে, স্পষ্টতই একটি সাধারণ ভয়েস এআই ইন্টেলিজেন্ট এজেন্ট তৈরি করতে চান, কিন্তু বিভিন্ন সমস্যায় আটকে গেছেন, যেমন দলের কেউ পাইথনে দক্ষ, কেউ সি++-এ পারদর্শী। তাদের নিজ নিজ ডেভেলপ করা অংশগুলো একসাথে যোগ করলে সমস্যা দেখা দেয়, পরিবেশ কনফিগার করতেই দিনের অর্ধেক সময় চলে যায়, আর এক্সটেনশন ফাংশনগুলো পরিবর্তন করতে করতে আরও বিশৃঙ্খল হয়ে যায়, শেষ পর্যন্ত উৎসাহও কমে যায়।
আজ আমি আপনাদের সাথে পরিচয় করিয়ে দেব একটি অতি-ব্যবহারযোগ্য সর্ব-উদ্দেশ্য ডেভেলপমেন্ট টুলবক্স TEN-Framework।

ওপেন সোর্স ঠিকানা: https://github.com/TEN-framework/ten-framework
TEN Framework অনেকটা এই জটিল জিনিসগুলোকে আপনার জন্য প্যাকেজ করার মতো। এটি আসলে রিয়েল-টাইম মাল্টিমোডাল কথোপকথনমূলক এআই তৈরির জন্য বিশেষভাবে ডিজাইন করা একটি ফ্রেমওয়ার্ক। আপনি এটিকে একটি রেডিমেড এআই ভয়েস অ্যাসিস্ট্যান্ট প্রোডাকশন লাইন হিসেবে ভাবতে পারেন। ভয়েস রিকগনিশন মডিউল, লার্জ মডেল মডিউল, ভয়েস সিনথেসিস মডিউল, এই সবকিছু আপনার জন্য প্রস্তুত করা হয়েছে। আপনাকে শুধু আপনার প্রয়োজন অনুযায়ী এগুলোকে একত্রিত করতে হবে। নিজের থেকে চাকা আবিষ্কার করার চেয়ে এটা অনেক বেশি সহজ।
এটি বিশেষভাবে কী করতে পারে সে সম্পর্কে বলতে গেলে, আমি প্রথমে কয়েকটি ব্যবহারিক জিনিস বেছে নেব। প্রথমটি হল মাল্টিপারপাস ভয়েস অ্যাসিস্ট্যান্ট, যা RTC এবং WebSocket উভয় সংযোগ সমর্থন করে, লেটেন্সি খুব কম এবং সাউন্ড কোয়ালিটিও ভালো। আপনি যদি স্মার্ট কাস্টমার সার্ভিস বা ব্যক্তিগত ভয়েস অ্যাসিস্ট্যান্ট তৈরি করতে চান, তবে এই ফাংশনটি মূলত আপনার চাহিদা পূরণ করতে পারবে। মজার বিষয় হল, এটির একটি ডুডল জেনারেটরও রয়েছে, আপনি যা বলবেন এটি তাই আঁকবে, হাতে আঁকা স্টাইলের ডুডল তৈরি করবে। এই ফাংশনটি ডেমোনস্ট্রেশন বা বিনোদনের জন্য বেশ জনপ্রিয় হবে।

মাল্টিপারসন কথোপকথনের জন্যেও এর সমাধান রয়েছে। এটির রিয়েল-টাইম স্পিকার রিকগনিশন ফাংশন রয়েছে, যা স্বয়ংক্রিয়ভাবে শনাক্ত করতে পারে কে কথা বলছে। ফলে মিটিং রেকর্ডিং বা ইন্টারভিউ ট্রান্সক্রিপশনের সময় বিভ্রান্ত হওয়ার চিন্তা নেই। ভার্চুয়াল ইমেজ অংশে, এআই অ্যাসিস্ট্যান্ট যখন কথা বলে, তখন চরিত্রের মুখের আকার ভয়েসের সাথে পুরোপুরি সিঙ্ক্রোনাইজ হয়। তা সে দ্বি-মাত্রিক এনিমে চরিত্র হোক বা ত্রিমাত্রিক ভার্চুয়াল মানুষ, মুখের আকার মেলানো সম্ভব। যারা ভার্চুয়াল স্ট্রীমার বা ব্যক্তিগত সহকারী তৈরি করেন তাদের জন্য এটি খুবই উপযোগী।

আপনি যদি এটিকে ফোন রিসিভ করাতে চান, তবে এটি SIP প্রোটোকলও সমর্থন করে, এআই অ্যাসিস্ট্যান্ট সরাসরি ফোন কল রিসিভ করতে পারবে। এই ফাংশনটি কর্পোরেট ব্যবহারকারীদের জন্য খুবই উপযোগী। স্মার্ট কাস্টমার সার্ভিসকে ফোন সিস্টেমের সাথে যুক্ত করলে অনেক শ্রম খরচ বাঁচানো যাবে। অবশ্যই, এটির বেসিক ভয়েস টু টেক্সট ফাংশনও রয়েছে, যা রিয়েল-টাইমে ভয়েসকে টেক্সটে রূপান্তরিত করে, মিটিংয়ের সারসংক্ষেপ, সাবটাইটেল তৈরি করার মতো কাজে ব্যবহার করা যেতে পারে।

স্ট্যান্ডার্ডাইজড প্রক্রিয়া ছাড়াও, এটির মধ্যে অনেক রেডিমেড প্রোজেক্ট টেমপ্লেট রয়েছে, তা সে এআই এজেন্টের টেমপ্লেট হোক বা বিভিন্ন এক্সটেনশন এবং অ্যাপ্লিকেশনের টেমপ্লেট। যেমন LLM, TTS এক্সটেনশন টেমপ্লেট, এবং কয়েকটি প্রধান ভাষার ডিফল্ট অ্যাপ্লিকেশন টেমপ্লেট সরাসরি ব্যবহার করা যেতে পারে। একটি নতুন প্রোজেক্ট তৈরি করা থেকে শুরু করে প্রথম ডেমো চালানো পর্যন্ত কয়েক মিনিটের ব্যাপার, যা অনেক সময় বাঁচায়।

যদি আপনি একজন অভিজ্ঞ ডেভেলপার হন, তবে আপনার জন্য আরও উন্নত উপায় রয়েছে। উদাহরণস্বরূপ, আপনি একটি উচ্চ-কার্যকারিতা সম্পন্ন রিয়েল-টাইম ভয়েস অ্যাসিস্ট্যান্ট তৈরি করতে পারেন, রিয়েল-টাইম অডিও এবং ভিডিও প্রক্রিয়াকরণের জন্য C++ ব্যবহার করে কম লেটেন্সি নিশ্চিত করতে পারেন, এবং LLM ইনফারেন্সের জন্য পাইথন ব্যবহার করে অ্যাসিস্ট্যান্টকে বুঝতে এবং চিন্তা করতে সক্ষম করতে পারেন। এছাড়াও Node.js ব্যবহার করে ফ্রন্ট-এন্ড ইন্টারঅ্যাকশন তৈরি করতে পারেন, যাতে ব্যবহারকারীরা সহজেই এটি ব্যবহার করতে পারে। এই পুরো ডেভেলপমেন্ট প্রক্রিয়াটি ঐতিহ্যবাহী একক ভাষার ডেভেলপমেন্টের চেয়ে ৩ গুণ বেশি দ্রুত।
অথবা TEN-এর VAD ভয়েস অ্যাক্টিভিটি ডিটেকশন এক্সটেনশন, TTS টেক্সট টু স্পিচ এক্সটেনশন এবং LLM এক্সটেনশন একত্রিত করে একটি সম্পূর্ণ স্বয়ংক্রিয় ইন্টেলিজেন্ট কথোপকথনমূলক রোবট তৈরি করতে পারেন। এক্সটেনশনগুলো একে অপরের সাথে নির্বিঘ্নে যুক্ত হতে পারে, আপনাকে জটিল ইন্টিগ্রেশন কোড লিখতে হবে না।
বর্তমানে, এই ফ্রেমওয়ার্কটি শীঘ্রই 10000 স্টার অতিক্রম করবে, আগ্রহী হলে চেষ্টা করে দেখতে পারেন।





