Github-এর দৈনিক সেরা প্রথম: রিয়েল-টাইম ভয়েস এআই ইন্টেলিজেন্ট এজেন্ট তৈরি করুন, সর্ব-উদ্দেশ্য সরঞ্জাম বাক্স

2/14/2026
3 min read

Github-এর দৈনিক সেরা প্রথম: রিয়েল-টাইম ভয়েস এআই ইন্টেলিজেন্ট এজেন্ট তৈরি করুন, সর্ব-উদ্দেশ্য সরঞ্জাম বাক্স

আপনাদের কি কখনও এমন অনুভূতি হয়েছে, স্পষ্টতই একটি সাধারণ ভয়েস এআই ইন্টেলিজেন্ট এজেন্ট তৈরি করতে চান, কিন্তু বিভিন্ন সমস্যায় আটকে গেছেন, যেমন দলের কেউ পাইথনে দক্ষ, কেউ সি++-এ পারদর্শী। তাদের নিজ নিজ ডেভেলপ করা অংশগুলো একসাথে যোগ করলে সমস্যা দেখা দেয়, পরিবেশ কনফিগার করতেই দিনের অর্ধেক সময় চলে যায়, আর এক্সটেনশন ফাংশনগুলো পরিবর্তন করতে করতে আরও বিশৃঙ্খল হয়ে যায়, শেষ পর্যন্ত উৎসাহও কমে যায়।

আজ আমি আপনাদের সাথে পরিচয় করিয়ে দেব একটি অতি-ব্যবহারযোগ্য সর্ব-উদ্দেশ্য ডেভেলপমেন্ট টুলবক্স TEN-Framework।

TEN Framework

ওপেন সোর্স ঠিকানা: https://github.com/TEN-framework/ten-framework

TEN Framework অনেকটা এই জটিল জিনিসগুলোকে আপনার জন্য প্যাকেজ করার মতো। এটি আসলে রিয়েল-টাইম মাল্টিমোডাল কথোপকথনমূলক এআই তৈরির জন্য বিশেষভাবে ডিজাইন করা একটি ফ্রেমওয়ার্ক। আপনি এটিকে একটি রেডিমেড এআই ভয়েস অ্যাসিস্ট্যান্ট প্রোডাকশন লাইন হিসেবে ভাবতে পারেন। ভয়েস রিকগনিশন মডিউল, লার্জ মডেল মডিউল, ভয়েস সিনথেসিস মডিউল, এই সবকিছু আপনার জন্য প্রস্তুত করা হয়েছে। আপনাকে শুধু আপনার প্রয়োজন অনুযায়ী এগুলোকে একত্রিত করতে হবে। নিজের থেকে চাকা আবিষ্কার করার চেয়ে এটা অনেক বেশি সহজ।

এটি বিশেষভাবে কী করতে পারে সে সম্পর্কে বলতে গেলে, আমি প্রথমে কয়েকটি ব্যবহারিক জিনিস বেছে নেব। প্রথমটি হল মাল্টিপারপাস ভয়েস অ্যাসিস্ট্যান্ট, যা RTC এবং WebSocket উভয় সংযোগ সমর্থন করে, লেটেন্সি খুব কম এবং সাউন্ড কোয়ালিটিও ভালো। আপনি যদি স্মার্ট কাস্টমার সার্ভিস বা ব্যক্তিগত ভয়েস অ্যাসিস্ট্যান্ট তৈরি করতে চান, তবে এই ফাংশনটি মূলত আপনার চাহিদা পূরণ করতে পারবে। মজার বিষয় হল, এটির একটি ডুডল জেনারেটরও রয়েছে, আপনি যা বলবেন এটি তাই আঁকবে, হাতে আঁকা স্টাইলের ডুডল তৈরি করবে। এই ফাংশনটি ডেমোনস্ট্রেশন বা বিনোদনের জন্য বেশ জনপ্রিয় হবে।

ডুডল জেনারেটর

মাল্টিপারসন কথোপকথনের জন্যেও এর সমাধান রয়েছে। এটির রিয়েল-টাইম স্পিকার রিকগনিশন ফাংশন রয়েছে, যা স্বয়ংক্রিয়ভাবে শনাক্ত করতে পারে কে কথা বলছে। ফলে মিটিং রেকর্ডিং বা ইন্টারভিউ ট্রান্সক্রিপশনের সময় বিভ্রান্ত হওয়ার চিন্তা নেই। ভার্চুয়াল ইমেজ অংশে, এআই অ্যাসিস্ট্যান্ট যখন কথা বলে, তখন চরিত্রের মুখের আকার ভয়েসের সাথে পুরোপুরি সিঙ্ক্রোনাইজ হয়। তা সে দ্বি-মাত্রিক এনিমে চরিত্র হোক বা ত্রিমাত্রিক ভার্চুয়াল মানুষ, মুখের আকার মেলানো সম্ভব। যারা ভার্চুয়াল স্ট্রীমার বা ব্যক্তিগত সহকারী তৈরি করেন তাদের জন্য এটি খুবই উপযোগী।

ভার্চুয়াল ইমেজ

আপনি যদি এটিকে ফোন রিসিভ করাতে চান, তবে এটি SIP প্রোটোকলও সমর্থন করে, এআই অ্যাসিস্ট্যান্ট সরাসরি ফোন কল রিসিভ করতে পারবে। এই ফাংশনটি কর্পোরেট ব্যবহারকারীদের জন্য খুবই উপযোগী। স্মার্ট কাস্টমার সার্ভিসকে ফোন সিস্টেমের সাথে যুক্ত করলে অনেক শ্রম খরচ বাঁচানো যাবে। অবশ্যই, এটির বেসিক ভয়েস টু টেক্সট ফাংশনও রয়েছে, যা রিয়েল-টাইমে ভয়েসকে টেক্সটে রূপান্তরিত করে, মিটিংয়ের সারসংক্ষেপ, সাবটাইটেল তৈরি করার মতো কাজে ব্যবহার করা যেতে পারে।

ভয়েস টু টেক্সট

স্ট্যান্ডার্ডাইজড প্রক্রিয়া ছাড়াও, এটির মধ্যে অনেক রেডিমেড প্রোজেক্ট টেমপ্লেট রয়েছে, তা সে এআই এজেন্টের টেমপ্লেট হোক বা বিভিন্ন এক্সটেনশন এবং অ্যাপ্লিকেশনের টেমপ্লেট। যেমন LLM, TTS এক্সটেনশন টেমপ্লেট, এবং কয়েকটি প্রধান ভাষার ডিফল্ট অ্যাপ্লিকেশন টেমপ্লেট সরাসরি ব্যবহার করা যেতে পারে। একটি নতুন প্রোজেক্ট তৈরি করা থেকে শুরু করে প্রথম ডেমো চালানো পর্যন্ত কয়েক মিনিটের ব্যাপার, যা অনেক সময় বাঁচায়।

প্রোজেক্ট টেমপ্লেট

যদি আপনি একজন অভিজ্ঞ ডেভেলপার হন, তবে আপনার জন্য আরও উন্নত উপায় রয়েছে। উদাহরণস্বরূপ, আপনি একটি উচ্চ-কার্যকারিতা সম্পন্ন রিয়েল-টাইম ভয়েস অ্যাসিস্ট্যান্ট তৈরি করতে পারেন, রিয়েল-টাইম অডিও এবং ভিডিও প্রক্রিয়াকরণের জন্য C++ ব্যবহার করে কম লেটেন্সি নিশ্চিত করতে পারেন, এবং LLM ইনফারেন্সের জন্য পাইথন ব্যবহার করে অ্যাসিস্ট্যান্টকে বুঝতে এবং চিন্তা করতে সক্ষম করতে পারেন। এছাড়াও Node.js ব্যবহার করে ফ্রন্ট-এন্ড ইন্টারঅ্যাকশন তৈরি করতে পারেন, যাতে ব্যবহারকারীরা সহজেই এটি ব্যবহার করতে পারে। এই পুরো ডেভেলপমেন্ট প্রক্রিয়াটি ঐতিহ্যবাহী একক ভাষার ডেভেলপমেন্টের চেয়ে ৩ গুণ বেশি দ্রুত।

অথবা TEN-এর VAD ভয়েস অ্যাক্টিভিটি ডিটেকশন এক্সটেনশন, TTS টেক্সট টু স্পিচ এক্সটেনশন এবং LLM এক্সটেনশন একত্রিত করে একটি সম্পূর্ণ স্বয়ংক্রিয় ইন্টেলিজেন্ট কথোপকথনমূলক রোবট তৈরি করতে পারেন। এক্সটেনশনগুলো একে অপরের সাথে নির্বিঘ্নে যুক্ত হতে পারে, আপনাকে জটিল ইন্টিগ্রেশন কোড লিখতে হবে না।

বর্তমানে, এই ফ্রেমওয়ার্কটি শীঘ্রই 10000 স্টার অতিক্রম করবে, আগ্রহী হলে চেষ্টা করে দেখতে পারেন।

Published in Technology

You Might Also Like

কিভাবে ক্লাউড কম্পিউটিং প্রযুক্তি ব্যবহার করবেন: আপনার প্রথম ক্লাউড অবকাঠামো নির্মাণের সম্পূর্ণ গাইডTechnology

কিভাবে ক্লাউড কম্পিউটিং প্রযুক্তি ব্যবহার করবেন: আপনার প্রথম ক্লাউড অবকাঠামো নির্মাণের সম্পূর্ণ গাইড

[[HTMLPLACEHOLDER0]] [[HTMLPLACEHOLDER1]] [[HTMLPLACEHOLDER2]] [[HTMLPLACEHOLDER3]] [[HTMLPLACEHOLDER4]] [[HTMLPLACEHOLD...

সতর্কতা! Claude Code এর জনক স্পষ্ট বললেন: ১ মাস পর Plan Mode ব্যবহার না করলে সফটওয়্যার ইঞ্জিনিয়ারের উপাধি বিলীন হয়ে যাবেTechnology

সতর্কতা! Claude Code এর জনক স্পষ্ট বললেন: ১ মাস পর Plan Mode ব্যবহার না করলে সফটওয়্যার ইঞ্জিনিয়ারের উপাধি বিলীন হয়ে যাবে

সতর্কতা! Claude Code এর জনক স্পষ্ট বললেন: ১ মাস পর Plan Mode ব্যবহার না করলে সফটওয়্যার ইঞ্জিনিয়ারের উপাধি বিলীন হয়ে য...

2026 সালের শীর্ষ 10 গভীর শিক্ষার সম্পদ সুপারিশTechnology

2026 সালের শীর্ষ 10 গভীর শিক্ষার সম্পদ সুপারিশ

2026 সালের শীর্ষ 10 গভীর শিক্ষার সম্পদ সুপারিশ গভীর শিক্ষার বিভিন্ন ক্ষেত্রে দ্রুত উন্নতির সাথে সাথে, আরও বেশি শেখার সম্...

2026 সালের শীর্ষ 10 AI এজেন্ট: মূল বিক্রয় পয়েন্ট বিশ্লেষণTechnology

2026 সালের শীর্ষ 10 AI এজেন্ট: মূল বিক্রয় পয়েন্ট বিশ্লেষণ

2026 সালের শীর্ষ 10 AI এজেন্ট: মূল বিক্রয় পয়েন্ট বিশ্লেষণ ভূমিকা কৃত্রিম বুদ্ধিমত্তার দ্রুত উন্নতির সাথে, AI এজেন্ট (A...

2026 সালের শীর্ষ 10 AI টুলের সুপারিশ: কৃত্রিম বুদ্ধিমত্তার প্রকৃত সম্ভাবনা মুক্ত করুনTechnology

2026 সালের শীর্ষ 10 AI টুলের সুপারিশ: কৃত্রিম বুদ্ধিমত্তার প্রকৃত সম্ভাবনা মুক্ত করুন

2026 সালের শীর্ষ 10 AI টুলের সুপারিশ: কৃত্রিম বুদ্ধিমত্তার প্রকৃত সম্ভাবনা মুক্ত করুন বর্তমান প্রযুক্তির দ্রুত উন্নয়নের...

2026 সালের শীর্ষ 10 AWS টুল এবং সম্পদ সুপারিশTechnology

2026 সালের শীর্ষ 10 AWS টুল এবং সম্পদ সুপারিশ

2026 সালের শীর্ষ 10 AWS টুল এবং সম্পদ সুপারিশ দ্রুত বিকাশমান ক্লাউড কম্পিউটিং ক্ষেত্রে, অ্যামাজন ওয়েব সার্ভিসেস (AWS) স...