Github နေ့စဥ်အကောင်းဆုံး ပထမဆု: Real-time အသံ AI အေးဂျင့်ကို တီထွင်ပါ၊ ဘက်စုံသုံးကိရိယာအစုံ
Github နေ့စဥ်အကောင်းဆုံး ပထမဆု: Real-time အသံ AI အေးဂျင့်ကို တီထွင်ပါ၊ ဘက်စုံသုံးကိရိယာအစုံ
ဒီလိုခံစားဖူးကြလား၊ ရိုးရှင်းတဲ့ အသံ AI အေးဂျင့်တစ်ခုကို ဖန်တီးချင်ပေမယ့် ပြဿနာအမျိုးမျိုးနဲ့ ရင်ဆိုင်နေရတယ်၊ ဥပမာ- အဖွဲ့ထဲမှာ Python ကျွမ်းကျင်သူတွေရှိသလို C++ ကျွမ်းကျင်သူတွေလည်း ရှိတယ်။ တစ်ယောက်စီ တီထွင်ထားတဲ့အပိုင်းတွေကို ပေါင်းလိုက်တဲ့အခါ ပြဿနာတွေပေါ်လာတယ်၊ ပတ်ဝန်းကျင်ကို ပြင်ဆင်ဖို့ တစ်နေကုန် အချိန်ကုန်ခံရတယ်၊ လုပ်ဆောင်ချက်တွေကို တိုးချဲ့ဖို့ဆိုတာ ပိုပြီးရှုပ်ထွေးလာတယ်၊ နောက်ဆုံးမှာ စိတ်အားထက်သန်မှုတွေ ကုန်ဆုံးသွားတယ်။
ဒီနေ့မှာတော့ အလွန်အသုံးဝင်တဲ့ ဘက်စုံသုံး တီထွင်ရေးကိရိယာအစုံ TEN-Framework ကို မိတ်ဆက်ပေးချင်ပါတယ်။

အသုံးပြုနိုင်ရန် လင့်ခ်- https://github.com/TEN-framework/ten-framework
TEN Framework က ဒီရှုပ်ထွေးတဲ့အရာတွေကို အားလုံးကို ထုပ်ပိုးပြီးသားနဲ့တူပါတယ်။ အမှန်တော့ ဒါက real-time multi-modal ဆွေးနွေးမှု AI ကို တည်ဆောက်ဖို့အတွက် သီးသန့်အသုံးပြုတဲ့ framework တစ်ခုပါ။ AI အသံလက်ထောက် ထုတ်လုပ်ရေးလိုင်းတစ်ခုလို့ သင်မြင်နိုင်ပါတယ်။ အသံမှတ်သားမှု module၊ ကြီးမားသော မော်ဒယ် module၊ အသံပေါင်းစပ် module တွေအားလုံးကို ပြင်ဆင်ပေးထားပြီးသားပါ။ သင်လုပ်ရမှာက ကိုယ့်လိုအပ်ချက်အရ သူတို့ကို စုစည်းဖို့ပဲ။ ဒါက သုညကနေ စပြီး ဘီးကို ကိုယ်တိုင်တီထွင်တာထက် အများကြီး သက်သာပါတယ်။
ဒါက ဘာတွေလုပ်နိုင်လဲဆိုတာနဲ့ပတ်သက်ပြီး ကျွန်တော်အသုံးဝင်တယ်လို့ထင်တဲ့ အရာအချို့ကို အရင်ပြောပြပါမယ်။ ပထမတစ်ခုကတော့ RTC နဲ့ WebSocket ချိတ်ဆက်မှုနည်းလမ်းနှစ်မျိုးကို ပံ့ပိုးပေးတဲ့ ဘက်စုံသုံး အသံလက်ထောက်ပါ။ latency နည်းပြီး အသံအရည်အသွေးလည်း ကောင်းပါတယ်။ စမတ်ဖောက်သည်ဝန်ဆောင်မှု ဒါမှမဟုတ် ကိုယ်ပိုင်အသံလက်ထောက်ကို လုပ်ချင်သည်ဖြစ်စေ ဒီလုပ်ဆောင်ချက်က အခြေခံအားဖြင့် လိုအပ်ချက်တွေကို ဖြည့်ဆည်းပေးနိုင်ပါတယ်။ စိတ်ဝင်စားစရာကောင်းတာက သူမှာ ပုံဆွဲစက်တစ်ခုလည်းရှိတယ်။ သင်ပြောတဲ့အရာကို သူက ဆွဲပေးပြီး လက်နဲ့ဆွဲထားတဲ့ပုံစံမျိုးကို ထုတ်ပေးပါတယ်။ ဒီလုပ်ဆောင်ချက်က သရုပ်ပြပွဲတွေ ဒါမှမဟုတ် ဖျော်ဖြေရေးမြင်ကွင်းတွေမှာ လူကြိုက်များမယ်လို့ ထင်ပါတယ်။

လူအများအပြား စကားပြောတဲ့မြင်ကွင်းတွေအတွက်လည်း သင့်လျော်တဲ့ ဖြေရှင်းနည်းတွေရှိပါတယ်။ သူမှာ real-time စကားပြောသူကို မှတ်သားနိုင်တဲ့ လုပ်ဆောင်ချက်ရှိပြီး ဘယ်သူပြောနေလဲဆိုတာကို အလိုအလျောက် ခွဲခြားနိုင်ပါတယ်။ ဒါကြောင့် အစည်းအဝေးမှတ်တမ်း ဒါမှမဟုတ် အင်တာဗျူးမှတ်တမ်းရေးတဲ့အခါ ရှုပ်ထွေးမှာကို စိုးရိမ်စရာမလိုပါဘူး။ virtual ပုံရိပ်ပိုင်းမှာ AI လက်ထောက်က စကားပြောတဲ့အခါ ဇာတ်ကောင်ရဲ့ နှုတ်ခမ်းပုံစံက အသံနဲ့ အပြည့်အဝ ကိုက်ညီနိုင်ပါတယ်။ နှစ်ဖက်မြင်ကာတွန်းဇာတ်ကောင်ပဲဖြစ်ဖြစ်၊ တကယ့် 3D virtual လူသားပဲဖြစ်ဖြစ် နှုတ်ခမ်းပုံစံကိုက်ညီအောင် လုပ်နိုင်ပါတယ်။ ဒါက virtual တင်ဆက်သူ ဒါမှမဟုတ် ကိုယ်ပိုင်လက်ထောက်ကို တီထွင်တဲ့သူတွေအတွက် အရမ်းအဆင်ပြေပါတယ်။

သူက ဖုန်းကိုင်ခိုင်းချင်ရင် SIP protocol ကိုလည်း ပံ့ပိုးပေးပါတယ်။ AI လက်ထောက်က ဖုန်းကို တိုက်ရိုက်ကိုင်နိုင်ပါတယ်။ ဒီလုပ်ဆောင်ချက်က လုပ်ငန်းသုံးအသုံးပြုသူတွေအတွက် အလွန်အသုံးဝင်ပါတယ်။ စမတ်ဖောက်သည်ဝန်ဆောင်မှုနဲ့ ဖုန်းစနစ်ကို ချိတ်ဆက်လိုက်ရင် လူအင်အားစရိတ်ကို သက်သာစေနိုင်ပါတယ်။ အခြေခံအသံကို စာသားပြောင်းတဲ့ လုပ်ဆောင်ချက်လည်း သူမှာရှိပါတယ်။ အသံကို real-time မှာ စာသားအဖြစ်ပြောင်းပြီး အစည်းအဝေးမှတ်တမ်း၊ စာတန်းထိုးထုတ်လုပ်ခြင်း စတဲ့မြင်ကွင်းတွေမှာ အသုံးပြုနိုင်ပါတယ်။

စံပြုလုပ်ငန်းစဉ်တွေအပြင် AI Agent ပုံစံတွေ၊ တိုးချဲ့မှုအမျိုးမျိုး၊ application ပုံစံတွေ အများကြီးကိုလည်း ထည့်သွင်းထားပါတယ်။ ဥပမာ- LLM, TTS တိုးချဲ့ပုံစံတွေ၊ ထိပ်တန်းဘာသာစကားအချို့ရဲ့ မူရင်း application ပုံစံတွေကို တိုက်ရိုက်သုံးနိုင်ပါတယ်။ ပရောဂျက်အသစ်တစ်ခုကို စတင်တာကနေ ပထမဆုံး demo ကို run နိုင်ဖို့ မိနစ်အနည်းငယ်ပဲ ကြာတဲ့အတွက် အချိန်ကုန်သက်သာပါတယ်။

တီထွင်ရေးမှာ ကျွမ်းကျင်တဲ့သူတွေအတွက်လည်း အဆင့်မြင့်နည်းလမ်းတွေရှိပါတယ်။ ဥပမာ- စွမ်းဆောင်ရည်မြင့် real-time အသံလက်ထောက်ကို တီထွင်နိုင်ပါတယ်။ C++ ကိုသုံးပြီး real-time အသံနဲ့ ဗီဒီယိုကို စီမံဆောင်ရွက်ပြီး latency နည်းပါးအောင် ထိန်းသိမ်းထားနိုင်ပါတယ်။ Python ကိုသုံးပြီး LLM ကို အသုံးပြုပြီး လက်ထောက်က နားလည်နိုင်၊ စဉ်းစားနိုင်အောင် လုပ်နိုင်ပါတယ်။ Node.js ကိုသုံးပြီး frontend အပြန်အလှန်ဆက်သွယ်မှုကို လုပ်ဆောင်ပြီး သုံးစွဲသူတွေကို လွယ်ကူစွာ လုပ်ဆောင်နိုင်အောင် လုပ်နိုင်ပါတယ်။ ဒီလိုလုပ်ဆောင်ခြင်းက ရိုးရာဘာသာစကားတစ်ခုတည်းနဲ့ တီထွင်တာထက် 3 ဆပိုမြန်ပါတယ်။
ဒါမှမဟုတ် TEN ရဲ့ VAD အသံလှုပ်ရှားမှုစမ်းသပ်မှုကို တိုးချဲ့ခြင်း၊ TTS စာသားကို အသံပြောင်းခြင်း တိုးချဲ့ခြင်းနဲ့ LLM တိုးချဲ့ခြင်းတွေကို ပေါင်းစပ်လိုက်ရင် အလိုအလျောက် စမတ်စကားပြောစက်ရုပ်တစ်ခုကို တည်ဆောက်နိုင်ပါတယ်။ တိုးချဲ့မှုတွေကြားမှာ ချောမွေ့စွာ ဆက်သွယ်နိုင်ပြီး ရှုပ်ထွေးတဲ့ ပေါင်းစပ်ကုဒ်ကို ကိုယ်တိုင်ရေးစရာမလိုပါဘူး။
လက်ရှိမှာ ဒီ framework က ကြယ် ၁၀၀၀၀ ကို မကြာခင်ကျော်ဖြတ်တော့မှာဖြစ်လို့ စိတ်ဝင်စားရင် စမ်းသုံးကြည့်နိုင်ပါတယ်။





