PageIndex အသေးစိတ်ခွဲခြမ်းစိတ်ဖြာခြင်း- vector မပါသော အကြောင်းပြချက်အမျိုးအစား RAG သည် AI ကို လူသားကျွမ်းကျင်သူများကဲ့သို့ စာရွက်စာတမ်းများကို ဖတ်ရှုစေသည်

2/15/2026
3 min read

PageIndex သည် Vectify AI အဖွဲ့မှ open source လုပ်ထားသော vector မပါသော၊ အကြောင်းပြချက်အမျိုးအစား RAG framework (GitHub 14.8k+ stars) ဖြစ်သည်။ ၎င်းသည် ရှည်လျားသောစာရွက်စာတမ်းများကို အဆင့်အလိုက်သစ်ပင်အညွှန်းများအဖြစ်သို့ ပြောင်းလဲပေးပြီး LLM ကို သစ်ပင်ပေါ်တွင် အကြောင်းပြချက်ရှာဖွေမှုအတွက် အသုံးပြုကာ FinanceBench ငွေကြေးစာရွက်စာတမ်းမေးဖြေစံနှုန်းတွင် 98.7% တိကျမှုရရှိသည်။

1. နောက်ခံ- ရိုးရာ RAG ၏ အားနည်းချက်ငါးရပ်

RAG သည် ကြီးမားသောပုံစံအသုံးချမှုအတွက် အမှန်တကယ်စံနှုန်းဖြစ်လာခဲ့သည်။ အဓိကအစီအစဉ်များသည် ကြိုတင်ပြင်ဆင်သည့်အဆင့်တွင် စာရွက်စာတမ်းများကို သတ်မှတ်ထားသောအရှည်ရှိ chunk များအဖြစ် ပိုင်းခြားပြီး embedding model မှတဆင့် vector များအဖြစ်သို့ ပြောင်းလဲကာ vector database တွင် သိမ်းဆည်းသည်။ မေးမြန်းသောအခါတွင် အသုံးပြုသူ၏မေးခွန်းအတွက် တူညီသော embedding ကိုပြုလုပ်ပြီး vector ဆင်တူရှာဖွေမှုမှတဆင့် ထိပ်တန်း K ရလဒ်များကို ပြန်လည်ရယူကာ LLM ၏ input context အဖြစ် ပေါင်းစပ်သည်။

ဤလုပ်ငန်းစဉ်သည် တိုတောင်းသောစာသားများနှင့် ယေဘုယျမြင်ကွင်းများတွင် ထိရောက်သော်လည်း ကျွမ်းကျင်ရှည်လျားသောစာရွက်စာတမ်းများ (ဘဏ္ဍာရေးအစီရင်ခံစာများ၊ ဥပဒေများနှင့်စည်းမျဉ်းများ၊ နည်းပညာလက်စွဲစာအုပ်များ စသည်) တွင် အခြေခံပြဿနာငါးရပ်ကို ဖော်ထုတ်သည်။

1) ဆင်တူခြင်း ≠ ဆက်စပ်ခြင်း။ Vector ရှာဖွေမှုသည် «အဓိပ္ပါယ်အရ အတူဆုံးစာသားအပိုင်း = အသက်ဆိုင်ဆုံးအဖြေအရင်းအမြစ်» ဟု ယူဆသော်လည်း ကျွမ်းကျင်စာရွက်စာတမ်းများတွင် အပိုင်းများစွာသည် အဓိပ္ပါယ်တူညီမှုကို မျှဝေကြသော်လည်း အဓိကအသေးစိတ်အချက်အလက်များတွင် ကြီးမားသောကွဲပြားမှုများရှိသည်။

2) ခိုင်မာသောအပိုင်းခွဲခြင်းသည် context ၏ပြည့်စုံမှုကို ပျက်စီးစေသည်။ 512 သို့မဟုတ် 1024 token ၏ သတ်မှတ်ထားသော window ဖြင့် စာရွက်စာတမ်းများကို ပိုင်းခြားခြင်းသည် ဝါကျများ၊ အပိုဒ်များ သို့မဟုတ် ယုတ္တိဗေဒအပိုင်းတစ်ခုလုံးကိုပင် ဖြတ်တောက်နိုင်ပြီး အဓိက context ဆုံးရှုံးမှုကို ဖြစ်စေသည်။

3) မေးမြန်းမှုရည်ရွယ်ချက်နှင့် အသိပညာနယ်ပယ်သည် လွဲမှားနေသည်။ အသုံးပြုသူ၏မေးမြန်းမှုသည် «အကြောင်းအရာ» အစား «ရည်ရွယ်ချက်» ကို ဖော်ပြပြီး query embedding နှင့် document embedding သည် မတူညီသော semantic space တွင်ရှိသည်။

4) စာရွက်စာတမ်းအတွင်းကိုးကားချက်များကို မကိုင်တွယ်နိုင်ပါ။ ကျွမ်းကျင်စာရွက်စာတမ်းများတွင် «နောက်ဆက်တွဲ G ကိုကြည့်ပါ» «ဇယား 5.3 ကို ကိုးကားပါ» စသည့်ကိုးကားချက်များကို မကြာခဏတွေ့ရသည်။ ဤကိုးကားချက်များနှင့် ကိုးကားခံရသောအကြောင်းအရာများအကြားတွင် semantic ဆင်တူမှုမရှိသောကြောင့် vector ရှာဖွေမှုသည် ကိုက်ညီရန်မဖြစ်နိုင်ပါ။

5) သီးခြားမေးမြန်းမှု၊ ဆွေးနွေးမှုမှတ်တမ်းကို အသုံးမပြုနိုင်ပါ။ ရှာဖွေမှုတစ်ခုစီသည် query ကို သီးခြားတောင်းဆိုမှုတစ်ခုအဖြစ် သဘောထားပြီး ယခင်ဆွေးနွေးမှု context နှင့် ပေါင်းစပ်၍ တိုးတက်သောရှာဖွေမှုကို မပြုလုပ်နိုင်ပါ။

2. PageIndex ၏ အလုံးစုံဖွဲ့စည်းပုံ

PageIndex သည် vector မပါသော (Vectorless)၊ အကြောင်းပြချက်အပေါ်အခြေခံသော (Reasoning-based) RAG framework တစ်ခုဖြစ်သည်။ ၎င်း၏အဓိကအယူအဆမှာ ပုံစံသည် vector space တွင် ခန့်မှန်းခြေကိုက်ညီမှုကိုပြုလုပ်ခိုင်းမည့်အစား စာရွက်စာတမ်း၏ ဖွဲ့စည်းတည်ဆောက်ပုံပေါ်တွင် အကြောင်းပြချက်ပြုလုပ်စေခြင်း ဖြစ်သည်။ «ဘယ်ကိုကြည့်ရမလဲ» ဆုံးဖြတ်ခြင်းသည် «ဘာကဆင်တူပုံပေါ်လဲ» ထက်ပိုအရေးကြီးသည်။

PageIndex သည် လူသားကျွမ်းကျင်သူများက ရှည်လျားသောစာရွက်စာတမ်းများကို ဖတ်ရှုသည့်ပုံစံကို အတုယူသည်။ ဦးစွာအကြောင်းအရာများကို ကြည့်ရှုပြီး မေးခွန်းပေါ်မူတည်၍ သက်ဆိုင်ရာအခန်းများကို ဆုံးဖြတ်ကာ ပန်းတိုင်အကြောင်းအရာကို ရှာဖွေတွေ့ရှိသည်အထိ အလွှာတစ်ခုပြီးတစ်ခု နက်ရှိုင်းစွာသွားသည်။ ဤလုပ်ငန်းစဉ်ကို အဆင့်နှစ်ဆင့်ဖြင့် အကောင်အထည်ဖော်သည်။

  • သစ်ပင်ဖွဲ့စည်းပုံအညွှန်းကို တည်ဆောက်ခြင်း- PDF/Markdown စာရွက်စာတမ်းကို အဆင့်အလိုက် JSON သစ်ပင်အဖြစ်သို့ ပြောင်းလဲခြင်းသည် «LLM အတွက် အကောင်းဆုံးဖြစ်အောင်ပြုလုပ်ထားသောအကြောင်းအရာ» နှင့်ဆင်တူသည်။
  • အကြောင်းပြချက်အမျိုးအစား သစ်ပင်ရှာဖွေခြင်း- LLM သည် မေးခွန်းပေါ်မူတည်၍ သစ်ပင်ပေါ်တွင် အကြောင်းပြချက်လမ်းညွှန်မှုကိုပြုလုပ်ပြီး သက်ဆိုင်ရာ node များကို ရှာဖွေကာ အကြောင်းအရာကိုထုတ်ယူပြီး အဖြေကိုထုတ်လုပ်သည်။

3. အဓိက module များကို ခွဲထုတ်ခြင်း

3.1 PDF လုပ်ဆောင်ခြင်း လုပ်ငန်းစဉ်

PageIndex ၏ PDF လုပ်ဆောင်ခြင်း လုပ်ငန်းစဉ်ကို tree_parser() function မှ စီစဉ်ထားပြီး အဓိကလုပ်ငန်းစဉ်တွင် အကြောင်းအရာရှာဖွေခြင်း (ပုံစံသုံးမျိုးခွဲထွက်ခြင်း)၊ နိဒါန်းဖြည့်စွက်ခြင်း၊ ပြားချပ်ချပ်စာရင်းကို အဆင့်အလိုက်သစ်ပင်အဖြစ်သို့ ပြောင်းလဲခြင်း၊ ကြီးမားသော node များကို ထပ်ခါထပ်ခါခွဲခြမ်းစိတ်ဖြာခြင်း၊ node များကို ကြွယ်ဝစေခြင်း၊ JSON သစ်ပင်ဖွဲ့စည်းပုံကို ထုတ်ပေးခြင်းတို့ ပါဝင်သည်။

ပုံစံသုံးမျိုး

  • process_toc_with_page_numbers (အကြောင်းအရာပါ + စာမျက်နှာနံပါတ်ပါ)- LLM ကို အသုံးပြု၍ မူရင်းအကြောင်းအရာကို ဖွဲ့စည်းတည်ဆောက်ထားသော JSON အဖြစ်သို့ ပြောင်းလဲပြီး ယုတ္တိဗေဒစာမျက်နှာနံပါတ်ကို ရုပ်ပိုင်းဆိုင်ရာစာမျက်နှာနံပါတ်နှင့် ဆက်စပ်ပေးသည်။
  • process_no_toc (အကြောင်းအရာမပါ)- LLM မှ စာသားအကြောင်းအရာမှ အဆင့်အလိုက်ဖွဲ့စည်းပုံကို တိုက်ရိုက်နုတ်ယူသည်။
  • process_toc_no_page_numbers (အကြောင်းအရာပါသော်လည်း စာမျက်နှာနံပါတ်မပါ)- ဖွဲ့စည်းပုံကို ထုတ်ယူပြီးနောက် ရုပ်ပိုင်းဆိုင်ရာစာမျက်နှာနံပါတ်ကို ဖြည့်စွက်ရန် နုတ်ယူသည်။

3.2 သစ်ပင်ဖွဲ့စည်းပုံ ဒေတာပုံစံ

သစ်ပင်ရှိ node တစ်ခုစီတွင် title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (ကလေး node များ၏ array) စသည့်အကွက်များပါဝင်သည်။

3.3 အကြောင်းပြချက်အမျိုးအစား ရှာဖွေမှုစနစ်

ရှာဖွေသည့်အဆင့်သည် မည်သည့် vector တွက်ချက်မှုအပေါ်မျှ မမှီခိုပါ။ LLM သည် အသုံးပြုသူ၏မေးခွန်းနှင့် စာရွက်စာတမ်းသစ်ပင်ဖွဲ့စည်းပုံကို လက်ခံရရှိပြီး node ခေါင်းစဉ်နှင့် အကျဉ်းချုပ်အပေါ်အခြေခံ၍ အကြောင်းပြချက်ကိုပြုလုပ်ကာ ၎င်း၏ «စဉ်းစားတွေးခေါ်မှုလုပ်ငန်းစဉ်» နှင့် သက်ဆိုင်ရာ node_id စာရင်းကို ထုတ်ပေးသည်။ ထို့နောက် စနစ်သည် node_id အရ node_map မှ သက်ဆိုင်ရာ node ၏ ပြည့်စုံသောစာသားကို ထုတ်ယူပြီး LLM မှ နောက်ဆုံးအဖြေကို ထုတ်လုပ်ရန်အတွက် context အဖြစ် ပေါင်းစပ်ပေးသည်။

4. အဓိကဒီဇိုင်းထူးခြားချက်များ

  • Vector မပါသော ဖွဲ့စည်းပုံ- embedding model နှင့် vector database မလိုအပ်သောကြောင့် အခြေခံအဆောက်အအုံကုန်ကျစရိတ်ကို လျှော့ချပြီး တပ်ဆင်မှုကို ရိုးရှင်းစေသည်။
  • စာရွက်စာတမ်း၏ သဘာဝဖွဲ့စည်းပုံကို ထိန်းသိမ်းထားခြင်း- စာရွက်စာတမ်း၏ မူလအခန်း/အပိုင်းငယ်/အခန်းခွဲများဖြင့် အကြောင်းအရာကို စုစည်းထားသောကြောင့် chunk ဖြတ်ကျော်ခြင်း၏ context ဆုံးရှုံးမှုကို ရှောင်ရှားနိုင်သည်။
  • ရှာဖွေမှု၏ ရှင်းလင်းပြတ်သားမှု- ရှာဖွေမှုတစ်ခုစီသည် ပြည့်စုံသော အကြောင်းပြချက်ကွင်းဆက်ကို ပြန်ပေးသောကြောင့် လိုက်နာမှုလိုအပ်ချက်မြင့်မားသော မြင်ကွင်းများတွင် သိသာထင်ရှားသော အားသာချက်များရှိသည်။

5. အကဲဖြတ်ရလဒ်များ

Mafin 2.5 သည် PageIndex ကိုအခြေခံထားသော ဘဏ္ဍာရေးစာရွက်စာတမ်းမေးဖြေစနစ်ဖြစ်သည်။ FinanceBench (ဘဏ္ဍာရေးစာရွက်စာတမ်း QA စံနှုန်းစမ်းသပ်မှု) တွင် 98.7% တိကျမှုရရှိပြီး Perplexity (45%) နှင့် GPT-4o (31%) ထက် များစွာသာလွန်သည်။

6. သင့်လျော်သောမြင်ကွင်းများ

သင့်လျော်သည်- ရှင်းလင်းသောအဆင့်အလိုက်ဖွဲ့စည်းပုံရှိသော ရှည်လျားသောစာရွက်စာတမ်းများ (ဘဏ္ဍာရေးအစီရင်ခံစာများ၊ စည်းမျဉ်းများ၊ သင်ရိုးညွှန်းတမ်းများ၊ လက်စွဲစာအုပ်များ)၊ စာမျက်နှာအရေအတွက်သည် ဆယ်ဂဏန်းမှ ရာဂဏန်းအထိရှိသည်။

မသင့်လျော်သည်- ဖွဲ့စည်းတည်ဆောက်ပုံမရှိသောအကြောင်းအရာပါသောစာရွက်စာတမ်းများ၊ OCR မပြုလုပ်ရသေးသော စကင်ဖတ်ထားသောစာရွက်စာတမ်းများ၊ ဇယား/ဂရပ်များဖြင့် ဖွဲ့စည်းထားသောစာရွက်စာတမ်းများ၊ မီလီစက္ကန့်အဆင့် အချိန်နှင့်တပြေးညီတုံ့ပြန်မှုလိုအပ်သော မြင်ကွင်းများ

7. အနှစ်ချုပ်

PageIndex ၏ အဓိကပံ့ပိုးမှုမှာ လက်တွေ့ကျသော vector မပါသော RAG ပုံစံကို တင်ပြခြင်းဖြစ်သည်။ စာရွက်စာတမ်း၏ သဘာဝဖွဲ့စည်းပုံကို အသုံးပြု၍ သစ်ပင်အညွှန်းကို တည်ဆောက်ပြီး LLM အကြောင်းပြချက်ကို vector ဆင်တူရှာဖွေမှုအစား အသုံးပြုသည်။ ဤအစီအစဉ်သည် ရှင်းလင်းသောအဆင့်အလိုက်ဖွဲ့စည်းပုံရှိသော ကျွမ်းကျင်ရှည်လျားသောစာရွက်စာတမ်းမြင်ကွင်းများတွင် ထူးချွန်စွာလုပ်ဆောင်နိုင်ပြီး ရှင်းလင်းပြတ်သားမှုနှင့် စစ်ဆေးနိုင်မှုသည် ရိုးရာအစီအစဉ်များထက် သိသိသာသာသာလွန်သည်။

Published in Technology

You Might Also Like

如何使用云计算技术:构建您的第一个云基础架构完整指南Technology

如何使用云计算技术:构建您的第一个云基础架构完整指南

如何使用云计算技术:构建您的第一个云基础架构完整指南 引言 随着数字化转型的加速,云计算已经成为企业和开发人员的首选解决方案。通过云计算,用户可以快速、经济地托管应用程序、存储数据以及进行数据分析。然而,许多新手在开始使用云计算时可能会感到...

သတိပေးချက်! Claude Code ၏ဖခင်က တိုက်ရိုက်ပြောသည်။ ၁ လအကြာ Plan Mode မသုံးတော့ပါ၊ ဆော့ဖ်ဝဲအင်ဂျင်နီယာ အမည်ပျောက်ကွယ်မည်။Technology

သတိပေးချက်! Claude Code ၏ဖခင်က တိုက်ရိုက်ပြောသည်။ ၁ လအကြာ Plan Mode မသုံးတော့ပါ၊ ဆော့ဖ်ဝဲအင်ဂျင်နီယာ အမည်ပျောက်ကွယ်မည်။

သတိပေးချက်! Claude Code ၏ဖခင်က တိုက်ရိုက်ပြောသည်။ ၁ လအကြာ Plan Mode မသုံးတော့ပါ၊ ဆော့ဖ်ဝဲအင်ဂျင်နီယာ အမည်ပျောက်ကွယ်မည်။ ...

2026年 Top 10 深度学习资源推荐Technology

2026年 Top 10 深度学习资源推荐

2026年 Top 10 深度学习资源推荐 随着深度学习在各个领域的迅速发展,越来越多的学习资源和工具涌现出来。本文将为您推荐2026年最值得关注的十个深度学习资源,帮助您在这一领域中快速成长。 1. Coursera Deep Learn...

2026 ခုနှစ် Top 10 AI ကိုယ်စားလှယ်များ: အဓိက ရောင်းအားများ ရှင်းလင်းခြင်းTechnology

2026 ခုနှစ် Top 10 AI ကိုယ်စားလှယ်များ: အဓိက ရောင်းအားများ ရှင်းလင်းခြင်း

2026 ခုနှစ် Top 10 AI ကိုယ်စားလှယ်များ: အဓိက ရောင်းအားများ ရှင်းလင်းခြင်း နိဒါန်း 人工智能 ၏ အမြန်တိုးတက်မှုနှင့်အတူ AI ကိုယ...

2026 ခုနှစ် Top 10 AI ကိရိယာ အကြံပြုချက်များ: လူသားအင်္ဂါရပ်များ၏ အမှန်တကယ် အင်အားကို လွှတ်ပေးပါTechnology

2026 ခုနှစ် Top 10 AI ကိရိယာ အကြံပြုချက်များ: လူသားအင်္ဂါရပ်များ၏ အမှန်တကယ် အင်အားကို လွှတ်ပေးပါ

2026 ခုနှစ် Top 10 AI ကိရိယာ အကြံပြုချက်များ: လူသားအင်္ဂါရပ်များ၏ အမှန်တကယ် အင်အားကို လွှတ်ပေးပါ နည်းပညာ တိုးတက်မှုမြန်ဆ...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 在快速发展的云计算领域,Amazon Web Services (AWS) 一直是领军者,提供丰富的服务和工具,帮助开发者、企业和技术专家在云上有效工作。以下是2026年值得关注的十大AWS工...