PageIndex အသေးစိတ်ခွဲခြမ်းစိတ်ဖြာခြင်း- vector မပါသော အကြောင်းပြချက်အမျိုးအစား RAG သည် AI ကို လူသားကျွမ်းကျင်သူများကဲ့သို့ စာရွက်စာတမ်းများကို ဖတ်ရှုစေသည်

PageIndex သည် Vectify AI အဖွဲ့မှ open source လုပ်ထားသော vector မပါသော၊ အကြောင်းပြချက်အမျိုးအစား RAG framework (GitHub 14.8k+ stars) ဖြစ်သည်။ ၎င်းသည် ရှည်လျားသောစာရွက်စာတမ်းများကို အဆင့်အလိုက်သစ်ပင်အညွှန်းများအဖြစ်သို့ ပြောင်းလဲပေးပြီး LLM ကို သစ်ပင်ပေါ်တွင် အကြောင်းပြချက်ရှာဖွေမှုအတွက် အသုံးပြုကာ FinanceBench ငွေကြေးစာရွက်စာတမ်းမေးဖြေစံနှုန်းတွင် 98.7% တိကျမှုရရှိသည်။

1. နောက်ခံ- ရိုးရာ RAG ၏ အားနည်းချက်ငါးရပ်

RAG သည် ကြီးမားသောပုံစံအသုံးချမှုအတွက် အမှန်တကယ်စံနှုန်းဖြစ်လာခဲ့သည်။ အဓိကအစီအစဉ်များသည် ကြိုတင်ပြင်ဆင်သည့်အဆင့်တွင် စာရွက်စာတမ်းများကို သတ်မှတ်ထားသောအရှည်ရှိ chunk များအဖြစ် ပိုင်းခြားပြီး embedding model မှတဆင့် vector များအဖြစ်သို့ ပြောင်းလဲကာ vector database တွင် သိမ်းဆည်းသည်။ မေးမြန်းသောအခါတွင် အသုံးပြုသူ၏မေးခွန်းအတွက် တူညီသော embedding ကိုပြုလုပ်ပြီး vector ဆင်တူရှာဖွေမှုမှတဆင့် ထိပ်တန်း K ရလဒ်များကို ပြန်လည်ရယူကာ LLM ၏ input context အဖြစ် ပေါင်းစပ်သည်။

ဤလုပ်ငန်းစဉ်သည် တိုတောင်းသောစာသားများနှင့် ယေဘုယျမြင်ကွင်းများတွင် ထိရောက်သော်လည်း ကျွမ်းကျင်ရှည်လျားသောစာရွက်စာတမ်းများ (ဘဏ္ဍာရေးအစီရင်ခံစာများ၊ ဥပဒေများနှင့်စည်းမျဉ်းများ၊ နည်းပညာလက်စွဲစာအုပ်များ စသည်) တွင် အခြေခံပြဿနာငါးရပ်ကို ဖော်ထုတ်သည်။

1) ဆင်တူခြင်း ≠ ဆက်စပ်ခြင်း။ Vector ရှာဖွေမှုသည် «အဓိပ္ပါယ်အရ အတူဆုံးစာသားအပိုင်း = အသက်ဆိုင်ဆုံးအဖြေအရင်းအမြစ်» ဟု ယူဆသော်လည်း ကျွမ်းကျင်စာရွက်စာတမ်းများတွင် အပိုင်းများစွာသည် အဓိပ္ပါယ်တူညီမှုကို မျှဝေကြသော်လည်း အဓိကအသေးစိတ်အချက်အလက်များတွင် ကြီးမားသောကွဲပြားမှုများရှိသည်။

2) ခိုင်မာသောအပိုင်းခွဲခြင်းသည် context ၏ပြည့်စုံမှုကို ပျက်စီးစေသည်။ 512 သို့မဟုတ် 1024 token ၏ သတ်မှတ်ထားသော window ဖြင့် စာရွက်စာတမ်းများကို ပိုင်းခြားခြင်းသည် ဝါကျများ၊ အပိုဒ်များ သို့မဟုတ် ယုတ္တိဗေဒအပိုင်းတစ်ခုလုံးကိုပင် ဖြတ်တောက်နိုင်ပြီး အဓိက context ဆုံးရှုံးမှုကို ဖြစ်စေသည်။

3) မေးမြန်းမှုရည်ရွယ်ချက်နှင့် အသိပညာနယ်ပယ်သည် လွဲမှားနေသည်။ အသုံးပြုသူ၏မေးမြန်းမှုသည် «အကြောင်းအရာ» အစား «ရည်ရွယ်ချက်» ကို ဖော်ပြပြီး query embedding နှင့် document embedding သည် မတူညီသော semantic space တွင်ရှိသည်။

4) စာရွက်စာတမ်းအတွင်းကိုးကားချက်များကို မကိုင်တွယ်နိုင်ပါ။ ကျွမ်းကျင်စာရွက်စာတမ်းများတွင် «နောက်ဆက်တွဲ G ကိုကြည့်ပါ» «ဇယား 5.3 ကို ကိုးကားပါ» စသည့်ကိုးကားချက်များကို မကြာခဏတွေ့ရသည်။ ဤကိုးကားချက်များနှင့် ကိုးကားခံရသောအကြောင်းအရာများအကြားတွင် semantic ဆင်တူမှုမရှိသောကြောင့် vector ရှာဖွေမှုသည် ကိုက်ညီရန်မဖြစ်နိုင်ပါ။

5) သီးခြားမေးမြန်းမှု၊ ဆွေးနွေးမှုမှတ်တမ်းကို အသုံးမပြုနိုင်ပါ။ ရှာဖွေမှုတစ်ခုစီသည် query ကို သီးခြားတောင်းဆိုမှုတစ်ခုအဖြစ် သဘောထားပြီး ယခင်ဆွေးနွေးမှု context နှင့် ပေါင်းစပ်၍ တိုးတက်သောရှာဖွေမှုကို မပြုလုပ်နိုင်ပါ။

2. PageIndex ၏ အလုံးစုံဖွဲ့စည်းပုံ

PageIndex သည် vector မပါသော (Vectorless)၊ အကြောင်းပြချက်အပေါ်အခြေခံသော (Reasoning-based) RAG framework တစ်ခုဖြစ်သည်။ ၎င်း၏အဓိကအယူအဆမှာ ပုံစံသည် vector space တွင် ခန့်မှန်းခြေကိုက်ညီမှုကိုပြုလုပ်ခိုင်းမည့်အစား စာရွက်စာတမ်း၏ ဖွဲ့စည်းတည်ဆောက်ပုံပေါ်တွင် အကြောင်းပြချက်ပြုလုပ်စေခြင်း ဖြစ်သည်။ «ဘယ်ကိုကြည့်ရမလဲ» ဆုံးဖြတ်ခြင်းသည် «ဘာကဆင်တူပုံပေါ်လဲ» ထက်ပိုအရေးကြီးသည်။

PageIndex သည် လူသားကျွမ်းကျင်သူများက ရှည်လျားသောစာရွက်စာတမ်းများကို ဖတ်ရှုသည့်ပုံစံကို အတုယူသည်။ ဦးစွာအကြောင်းအရာများကို ကြည့်ရှုပြီး မေးခွန်းပေါ်မူတည်၍ သက်ဆိုင်ရာအခန်းများကို ဆုံးဖြတ်ကာ ပန်းတိုင်အကြောင်းအရာကို ရှာဖွေတွေ့ရှိသည်အထိ အလွှာတစ်ခုပြီးတစ်ခု နက်ရှိုင်းစွာသွားသည်။ ဤလုပ်ငန်းစဉ်ကို အဆင့်နှစ်ဆင့်ဖြင့် အကောင်အထည်ဖော်သည်။

သစ်ပင်ဖွဲ့စည်းပုံအညွှန်းကို တည်ဆောက်ခြင်း- PDF/Markdown စာရွက်စာတမ်းကို အဆင့်အလိုက် JSON သစ်ပင်အဖြစ်သို့ ပြောင်းလဲခြင်းသည် «LLM အတွက် အကောင်းဆုံးဖြစ်အောင်ပြုလုပ်ထားသောအကြောင်းအရာ» နှင့်ဆင်တူသည်။
အကြောင်းပြချက်အမျိုးအစား သစ်ပင်ရှာဖွေခြင်း- LLM သည် မေးခွန်းပေါ်မူတည်၍ သစ်ပင်ပေါ်တွင် အကြောင်းပြချက်လမ်းညွှန်မှုကိုပြုလုပ်ပြီး သက်ဆိုင်ရာ node များကို ရှာဖွေကာ အကြောင်းအရာကိုထုတ်ယူပြီး အဖြေကိုထုတ်လုပ်သည်။

3. အဓိက module များကို ခွဲထုတ်ခြင်း

3.1 PDF လုပ်ဆောင်ခြင်း လုပ်ငန်းစဉ်

PageIndex ၏ PDF လုပ်ဆောင်ခြင်း လုပ်ငန်းစဉ်ကို tree_parser() function မှ စီစဉ်ထားပြီး အဓိကလုပ်ငန်းစဉ်တွင် အကြောင်းအရာရှာဖွေခြင်း (ပုံစံသုံးမျိုးခွဲထွက်ခြင်း)၊ နိဒါန်းဖြည့်စွက်ခြင်း၊ ပြားချပ်ချပ်စာရင်းကို အဆင့်အလိုက်သစ်ပင်အဖြစ်သို့ ပြောင်းလဲခြင်း၊ ကြီးမားသော node များကို ထပ်ခါထပ်ခါခွဲခြမ်းစိတ်ဖြာခြင်း၊ node များကို ကြွယ်ဝစေခြင်း၊ JSON သစ်ပင်ဖွဲ့စည်းပုံကို ထုတ်ပေးခြင်းတို့ ပါဝင်သည်။

ပုံစံသုံးမျိုး

process_toc_with_page_numbers (အကြောင်းအရာပါ + စာမျက်နှာနံပါတ်ပါ)- LLM ကို အသုံးပြု၍ မူရင်းအကြောင်းအရာကို ဖွဲ့စည်းတည်ဆောက်ထားသော JSON အဖြစ်သို့ ပြောင်းလဲပြီး ယုတ္တိဗေဒစာမျက်နှာနံပါတ်ကို ရုပ်ပိုင်းဆိုင်ရာစာမျက်နှာနံပါတ်နှင့် ဆက်စပ်ပေးသည်။
process_no_toc (အကြောင်းအရာမပါ)- LLM မှ စာသားအကြောင်းအရာမှ အဆင့်အလိုက်ဖွဲ့စည်းပုံကို တိုက်ရိုက်နုတ်ယူသည်။
process_toc_no_page_numbers (အကြောင်းအရာပါသော်လည်း စာမျက်နှာနံပါတ်မပါ)- ဖွဲ့စည်းပုံကို ထုတ်ယူပြီးနောက် ရုပ်ပိုင်းဆိုင်ရာစာမျက်နှာနံပါတ်ကို ဖြည့်စွက်ရန် နုတ်ယူသည်။

3.2 သစ်ပင်ဖွဲ့စည်းပုံ ဒေတာပုံစံ

သစ်ပင်ရှိ node တစ်ခုစီတွင် title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (ကလေး node များ၏ array) စသည့်အကွက်များပါဝင်သည်။

3.3 အကြောင်းပြချက်အမျိုးအစား ရှာဖွေမှုစနစ်

ရှာဖွေသည့်အဆင့်သည် မည်သည့် vector တွက်ချက်မှုအပေါ်မျှ မမှီခိုပါ။ LLM သည် အသုံးပြုသူ၏မေးခွန်းနှင့် စာရွက်စာတမ်းသစ်ပင်ဖွဲ့စည်းပုံကို လက်ခံရရှိပြီး node ခေါင်းစဉ်နှင့် အကျဉ်းချုပ်အပေါ်အခြေခံ၍ အကြောင်းပြချက်ကိုပြုလုပ်ကာ ၎င်း၏ «စဉ်းစားတွေးခေါ်မှုလုပ်ငန်းစဉ်» နှင့် သက်ဆိုင်ရာ node_id စာရင်းကို ထုတ်ပေးသည်။ ထို့နောက် စနစ်သည် node_id အရ node_map မှ သက်ဆိုင်ရာ node ၏ ပြည့်စုံသောစာသားကို ထုတ်ယူပြီး LLM မှ နောက်ဆုံးအဖြေကို ထုတ်လုပ်ရန်အတွက် context အဖြစ် ပေါင်းစပ်ပေးသည်။

4. အဓိကဒီဇိုင်းထူးခြားချက်များ

Vector မပါသော ဖွဲ့စည်းပုံ- embedding model နှင့် vector database မလိုအပ်သောကြောင့် အခြေခံအဆောက်အအုံကုန်ကျစရိတ်ကို လျှော့ချပြီး တပ်ဆင်မှုကို ရိုးရှင်းစေသည်။
စာရွက်စာတမ်း၏ သဘာဝဖွဲ့စည်းပုံကို ထိန်းသိမ်းထားခြင်း- စာရွက်စာတမ်း၏ မူလအခန်း/အပိုင်းငယ်/အခန်းခွဲများဖြင့် အကြောင်းအရာကို စုစည်းထားသောကြောင့် chunk ဖြတ်ကျော်ခြင်း၏ context ဆုံးရှုံးမှုကို ရှောင်ရှားနိုင်သည်။
ရှာဖွေမှု၏ ရှင်းလင်းပြတ်သားမှု- ရှာဖွေမှုတစ်ခုစီသည် ပြည့်စုံသော အကြောင်းပြချက်ကွင်းဆက်ကို ပြန်ပေးသောကြောင့် လိုက်နာမှုလိုအပ်ချက်မြင့်မားသော မြင်ကွင်းများတွင် သိသာထင်ရှားသော အားသာချက်များရှိသည်။

5. အကဲဖြတ်ရလဒ်များ

Mafin 2.5 သည် PageIndex ကိုအခြေခံထားသော ဘဏ္ဍာရေးစာရွက်စာတမ်းမေးဖြေစနစ်ဖြစ်သည်။ FinanceBench (ဘဏ္ဍာရေးစာရွက်စာတမ်း QA စံနှုန်းစမ်းသပ်မှု) တွင် 98.7% တိကျမှုရရှိပြီး Perplexity (45%) နှင့် GPT-4o (31%) ထက် များစွာသာလွန်သည်။

6. သင့်လျော်သောမြင်ကွင်းများ

သင့်လျော်သည်- ရှင်းလင်းသောအဆင့်အလိုက်ဖွဲ့စည်းပုံရှိသော ရှည်လျားသောစာရွက်စာတမ်းများ (ဘဏ္ဍာရေးအစီရင်ခံစာများ၊ စည်းမျဉ်းများ၊ သင်ရိုးညွှန်းတမ်းများ၊ လက်စွဲစာအုပ်များ)၊ စာမျက်နှာအရေအတွက်သည် ဆယ်ဂဏန်းမှ ရာဂဏန်းအထိရှိသည်။

မသင့်လျော်သည်- ဖွဲ့စည်းတည်ဆောက်ပုံမရှိသောအကြောင်းအရာပါသောစာရွက်စာတမ်းများ၊ OCR မပြုလုပ်ရသေးသော စကင်ဖတ်ထားသောစာရွက်စာတမ်းများ၊ ဇယား/ဂရပ်များဖြင့် ဖွဲ့စည်းထားသောစာရွက်စာတမ်းများ၊ မီလီစက္ကန့်အဆင့် အချိန်နှင့်တပြေးညီတုံ့ပြန်မှုလိုအပ်သော မြင်ကွင်းများ

7. အနှစ်ချုပ်

PageIndex ၏ အဓိကပံ့ပိုးမှုမှာ လက်တွေ့ကျသော vector မပါသော RAG ပုံစံကို တင်ပြခြင်းဖြစ်သည်။ စာရွက်စာတမ်း၏ သဘာဝဖွဲ့စည်းပုံကို အသုံးပြု၍ သစ်ပင်အညွှန်းကို တည်ဆောက်ပြီး LLM အကြောင်းပြချက်ကို vector ဆင်တူရှာဖွေမှုအစား အသုံးပြုသည်။ ဤအစီအစဉ်သည် ရှင်းလင်းသောအဆင့်အလိုက်ဖွဲ့စည်းပုံရှိသော ကျွမ်းကျင်ရှည်လျားသောစာရွက်စာတမ်းမြင်ကွင်းများတွင် ထူးချွန်စွာလုပ်ဆောင်နိုင်ပြီး ရှင်းလင်းပြတ်သားမှုနှင့် စစ်ဆေးနိုင်မှုသည် ရိုးရာအစီအစဉ်များထက် သိသိသာသာသာလွန်သည်။