PageIndex ആഴത്തിലുള്ള വിശകലനം: വെക്റ്റർ രഹിത അനുമാന RAG, AI-യെ മനുഷ്യ വിദഗ്ദ്ധരെപ്പോലെ രേഖകൾ വായിക്കാൻ അനുവദിക്കുന്നു
PageIndex എന്നത് Vectify AI ടീം ഓപ്പൺ സോഴ്സ് ചെയ്ത വെക്റ്റർ രഹിതവും, അനുമാനത്തെ അടിസ്ഥാനമാക്കിയുള്ളതുമായ RAG ചട്ടക്കൂടാണ് (GitHub 14.8k+ stars). ഇത് വലിയ രേഖകളെ ശ്രേണീപരമായ ട്രീ ഇൻഡെക്സുകളാക്കി മാറ്റുന്നു, LLM ഉപയോഗിച്ച് ട്രീയിൽ അനുമാനപരമായ വീണ്ടെടുക്കൽ നടത്തുന്നു, FinanceBench സാമ്പത്തിക രേഖ ചോദ്യോത്തര മാനദണ്ഡത്തിൽ 98.7% കൃത്യത കൈവരിക്കുന്നു.

1. പശ്ചാത്തലം: പരമ്പരാഗത RAG-യുടെ അഞ്ച് വേദന പോയിന്റുകൾ
RAG എന്നത് വലിയ മോഡൽ ആപ്ലിക്കേഷനുകളുടെ ഒരു പ്രധാന മാനദണ്ഡമായി മാറിയിരിക്കുന്നു. പ്രധാന രീതിയിൽ, പ്രീ-പ്രോസസ്സിംഗ് ഘട്ടത്തിൽ രേഖകളെ നിശ്ചിത ദൈർഘ്യമുള്ള ഭാഗങ്ങളായി (chunk) വിഭജിക്കുന്നു, embedding മോഡൽ വഴി വെക്റ്ററുകളാക്കി മാറ്റുന്നു, തുടർന്ന് വെക്റ്റർ ഡാറ്റാബേസിൽ സംഭരിക്കുന്നു; അന്വേഷണ സമയത്ത്, ഉപയോക്താവിൻ്റെ ചോദ്യത്തിന് സമാനമായ embedding ഉണ്ടാക്കുന്നു, വെക്റ്റർ സാമ്യത തിരയലിലൂടെ ഏറ്റവും മികച്ച Top-K ഫലങ്ങൾ വീണ്ടെടുക്കുന്നു, തുടർന്ന് LLM-ൻ്റെ ഇൻപുട്ട് കോൺടെക്സ്റ്റായി കൂട്ടിച്ചേർക്കുന്നു.
ഈ പ്രക്രിയ ചെറിയ ടെക്സ്റ്റുകളിലും പൊതുവായ സാഹചര്യങ്ങളിലും ഫലപ്രദമാണ്, എന്നാൽ പ്രൊഫഷണൽ വലിയ രേഖകളിൽ (സാമ്പത്തിക റിപ്പോർട്ടുകൾ, നിയമങ്ങൾ, സാങ്കേതിക മാനുവലുകൾ മുതലായവ) അഞ്ച് അടിസ്ഥാനപരമായ പ്രശ്നങ്ങൾ ഉണ്ട്:
1) സാമ്യം ≠ ബന്ധം. വെക്റ്റർ വീണ്ടെടുക്കൽ അനുമാനിക്കുന്നത് "ഏറ്റവും അടുത്ത സെമാൻ്റിക് ടെക്സ്റ്റ് ഭാഗം = ഏറ്റവും പ്രസക്തമായ ഉത്തര ഉറവിടം" എന്നാണ്, എന്നാൽ പ്രൊഫഷണൽ രേഖകളിൽ, ധാരാളം ഖണ്ഡികകൾ ഏകദേശം സമാനമായ അർത്ഥം പങ്കിടുന്നു, പക്ഷേ പ്രധാന വിശദാംശങ്ങളിൽ വലിയ വ്യത്യാസങ്ങളുണ്ട്.
2) ഹാർഡ് പാർട്ടീഷനിംഗ് കോൺടെക്സ്റ്റ് പൂർണ്ണതയെ തകർക്കുന്നു. 512 അല്ലെങ്കിൽ 1024 ടോക്കണുകളുടെ നിശ്ചിത വിൻഡോ ഉപയോഗിച്ച് രേഖകളെ വിഭജിക്കുന്നത് വാക്യങ്ങൾ, ഖണ്ഡികകൾ അല്ലെങ്കിൽ മുഴുവൻ ലോജിക്കൽ ഭാഗങ്ങളെയും മുറിച്ചുമാറ്റാൻ ഇടയാക്കുന്നു, ഇത് പ്രധാനപ്പെട്ട കോൺടെക്സ്റ്റ് നഷ്ടപ്പെടുത്തുന്നു.
3) അന്വേഷണ ഉദ്ദേശവും വിജ്ഞാന സ്ഥലവും തമ്മിലുള്ള തെറ്റായ ബന്ധം. ഉപയോക്താവിൻ്റെ അന്വേഷണം പ്രകടിപ്പിക്കുന്നത് "ഉദ്ദേശമാണ്" അല്ലാതെ "ഉള്ളടക്കമല്ല", query embedding-ഉം document embedding-ഉം വ്യത്യസ്ത സെമാൻ്റിക് സ്പേസുകളിലാണ്.
4) രേഖയിലെ ഉദ്ധരണികൾ കൈകാര്യം ചെയ്യാൻ കഴിയില്ല. പ്രൊഫഷണൽ രേഖകളിൽ സാധാരണയായി "വിശദാംശങ്ങൾക്ക് അനുബന്ധം G കാണുക", "പട്ടിക 5.3 റഫർ ചെയ്യുക" തുടങ്ങിയ ഉദ്ധരണികൾ ഉണ്ടാകാറുണ്ട്. ഈ ഉദ്ധരണികളും ഉദ്ധരിച്ച ഉള്ളടക്കവും തമ്മിൽ സെമാൻ്റിക് സാമ്യമില്ല, വെക്റ്റർ വീണ്ടെടുക്കലിന് ഇത് പൊരുത്തപ്പെടുത്താൻ കഴിയില്ല.
5) സ്വതന്ത്രമായ അന്വേഷണം, സംഭാഷണ ചരിത്രം ഉപയോഗിക്കാൻ കഴിയില്ല. ഓരോ വീണ്ടെടുക്കലും ചോദ്യത്തെ ഒരു സ്വതന്ത്ര അഭ്യർത്ഥനയായി കണക്കാക്കുന്നു, അതിനാൽ മുൻ സംഭാഷണത്തിൻ്റെ കോൺടെക്സ്റ്റ് ഉപയോഗിച്ച് ക്രമാനുഗതമായ വീണ്ടെടുക്കൽ നടത്താൻ കഴിയില്ല.
2. PageIndex മൊത്തത്തിലുള്ള ഘടന
PageIndex ഒരു വെക്റ്റർ രഹിതവും (Vectorless), അനുമാനത്തെ അടിസ്ഥാനമാക്കിയുള്ളതുമായ (Reasoning-based) RAG ചട്ടക്കൂടാണ്. ഇതിൻ്റെ പ്രധാന ആശയം ഇതാണ്: വെക്റ്റർ സ്പേസിൽ മോഡലിനെ ഏകദേശ പൊരുത്തപ്പെടുത്തൽ നടത്താൻ അനുവദിക്കുന്നതിനുപകരം, രേഖയുടെ ഘടനാപരമായ രൂപത്തിൽ മോഡലിനെ അനുമാനം നടത്താൻ അനുവദിക്കുക - "എവിടെ നോക്കണം" എന്ന് തീരുമാനിക്കുക, അല്ലാതെ "എന്താണ് സമാനമായി തോന്നുന്നത്" എന്നതിലല്ല ശ്രദ്ധ കേന്ദ്രീകരിക്കേണ്ടത്.
PageIndex ഒരു മനുഷ്യ വിദഗ്ദ്ധൻ വലിയ രേഖകൾ വായിക്കുന്ന രീതി അനുകരിക്കുന്നു: ആദ്യം ഉള്ളടക്കപ്പട്ടിക (table of contents) പരിശോധിക്കുക, ചോദ്യം അനുസരിച്ച് ബന്ധപ്പെട്ട അധ്യായങ്ങൾ കണ്ടെത്തുക, ലക്ഷ്യസ്ഥാനം കണ്ടെത്തുന്നതുവരെ ഓരോ പാളിയായി ആഴത്തിൽ ഇറങ്ങുക. ഈ പ്രക്രിയ രണ്ട് ഘട്ടങ്ങളിലൂടെ നടപ്പിലാക്കുന്നു:
- ട്രീ ഘടനയിലുള്ള സൂചിക നിർമ്മിക്കുക: PDF/Markdown രേഖകളെ ശ്രേണീപരമായ JSON ട്രീ ആക്കി മാറ്റുക, ഇത് "LLM-ന് അനുയോജ്യമായ ഒരു ഡയറക്ടറി" പോലെയാണ്.
- അനുമാനപരമായ ട്രീ തിരയൽ: LLM ചോദ്യം അനുസരിച്ച് ട്രീയിൽ അനുമാനം നടത്തി വിവരങ്ങൾ കണ്ടെത്തുന്നു, ബന്ധപ്പെട്ട നോഡുകൾ തിരിച്ചറിയുന്നു, ഉള്ളടക്കം എക്സ്ട്രാക്റ്റ് ചെയ്ത് ഉത്തരം നൽകുന്നു.

3. പ്രധാന മൊഡ്യൂളുകളുടെ വിശകലനം
3.1 PDF പ്രോസസ്സിംഗ് പൈപ്പ്ലൈൻ
PageIndex-ൻ്റെ PDF പ്രോസസ്സിംഗ് പൈപ്പ്ലൈൻ tree_parser() ഫംഗ്ഷൻ ഉപയോഗിച്ച് ക്രമീകരിക്കുന്നു. ഇതിലെ പ്രധാന പ്രവർത്തനങ്ങൾ ഇവയാണ്: ഡയറക്ടറി കണ്ടെത്തൽ (മൂന്ന് മോഡ് ബ്രാഞ്ചുകൾ), ആമുഖം ചേർക്കൽ, ഫ്ലാറ്റ് ലിസ്റ്റിനെ ശ്രേണിപരമായ ട്രീ ആക്കി മാറ്റുക, വലിയ നോഡുകളെ വീണ്ടും ചെറുതാക്കുക, നോഡുകൾക്ക് കൂടുതൽ വിവരങ്ങൾ നൽകുക, JSON ട്രീ ഘടന ഔട്ട്പുട്ട് ചെയ്യുക.
മൂന്ന് പ്രോസസ്സിംഗ് മോഡുകൾ:
- process_toc_with_page_numbers (ഉള്ളടക്കപ്പട്ടിക + പേജ് നമ്പറുകൾ): LLM ഉപയോഗിച്ച് ഒറിജിനൽ ഉള്ളടക്കപ്പട്ടികയെ ഘടനാപരമായ JSON ആക്കി മാറ്റുക, ലോജിക്കൽ പേജ് നമ്പറുകളെ ഫിസിക്കൽ പേജ് നമ്പറുകളുമായി ബന്ധിപ്പിക്കുക.
- process_no_toc (ഉള്ളടക്കപ്പട്ടിക ഇല്ലാത്തത്): LLM ഉപയോഗിച്ച് പ്രധാന ഉള്ളടക്കത്തിൽ നിന്ന് നേരിട്ട് ശ്രേണിപരമായ ഘടന കണ്ടെത്തുക.
- process_toc_no_page_numbers (ഉള്ളടക്കപ്പട്ടിക ഉണ്ട്, പക്ഷേ പേജ് നമ്പറുകളില്ല): ഘടന എക്സ്ട്രാക്റ്റ് ചെയ്ത ശേഷം ഫിസിക്കൽ പേജ് നമ്പറുകൾ അനുമാനിച്ചു ചേർക്കുക.
3.2 ട്രീ ഘടന ഡാറ്റാ മോഡൽ
ട്രീയിലെ ഓരോ നോഡിലും title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (ചൈൽഡ് നോഡുകളുടെ അറേ) തുടങ്ങിയ ഫീൽഡുകൾ അടങ്ങിയിരിക്കുന്നു.
3.3 അനുമാനപരമായ വീണ്ടെടുക്കൽ സംവിധാനം
വീണ്ടെടുക്കൽ ഘട്ടത്തിൽ വെക്റ്റർ കണക്കുകൂട്ടലുകളെ ആശ്രയിക്കുന്നില്ല. LLM ഉപയോക്താവിൻ്റെ ചോദ്യവും രേഖയുടെ ട്രീ ഘടനയും സ്വീകരിക്കുന്നു, നോഡിൻ്റെ തലക്കെട്ടും സംഗ്രഹവും അടിസ്ഥാനമാക്കി അനുമാനം നടത്തുന്നു, അതിൻ്റെ "ചിന്താ പ്രക്രിയയും" ബന്ധപ്പെട്ട node_id-കളുടെ ലിസ്റ്റും ഔട്ട്പുട്ട് ചെയ്യുന്നു. തുടർന്ന് സിസ്റ്റം node_id അനുസരിച്ച് node_map-ൽ നിന്ന് ബന്ധപ്പെട്ട നോഡുകളുടെ പൂർണ്ണമായ ടെക്സ്റ്റ് എക്സ്ട്രാക്റ്റ് ചെയ്യുന്നു, കോൺടെക്സ്റ്റായി കൂട്ടിച്ചേർത്ത് LLM-ന് നൽകി അന്തിമ ഉത്തരം ഉണ്ടാക്കുന്നു.

4. പ്രധാന ഡിസൈൻ ഹൈലൈറ്റുകൾ
- വെക്റ്റർ രഹിത ആർക്കിടെക്ചർ: embedding മോഡലും വെക്റ്റർ ഡാറ്റാബേസും ആവശ്യമില്ല, ഇത് ഇൻഫ്രാസ്ട്രക്ചർ ചിലവ് കുറയ്ക്കുന്നു, വിന്യാസം ലളിതമാക്കുന്നു.
- രേഖയുടെ സ്വാഭാവിക ഘടന നിലനിർത്തുന്നു: രേഖയുടെ അധ്യായങ്ങൾ/ഉപവിഭാഗങ്ങൾ/ചെറിയ അധ്യായങ്ങൾ അനുസരിച്ച് ഉള്ളടക്കം ക്രമീകരിക്കുന്നു, ഇത് chunk-കൾക്കിടയിൽ കോൺടെക്സ്റ്റ് നഷ്ടപ്പെടുന്നത് ഒഴിവാക്കുന്നു.
- വീണ്ടെടുക്കലിൻ്റെ വ്യാഖ്യാനക്ഷമത: ഓരോ വീണ്ടെടുക്കലിലും പൂർണ്ണമായ അനുമാന ശൃംഖല നൽകുന്നു, ഇത് പാലിക്കൽ ആവശ്യകതകളുള്ള സാഹചര്യങ്ങളിൽ വ്യക്തമായ നേട്ടമുണ്ടാക്കുന്നു.
5. വിലയിരുത്തൽ ഫലങ്ങൾ
Mafin 2.5 എന്നത് PageIndex അടിസ്ഥാനമാക്കിയുള്ള ഒരു സാമ്പത്തിക രേഖ ചോദ്യോത്തര സംവിധാനമാണ്. FinanceBench-ൽ (സാമ്പത്തിക രേഖ QA ബെഞ്ച്മാർക്ക് ടെസ്റ്റിംഗ്) 98.7% കൃത്യത കൈവരിച്ചു, ഇത് Perplexity (45%) , GPT-4o (31%) എന്നിവയെക്കാൾ വളരെ കൂടുതലാണ്.

6. അനുയോജ്യമായ സാഹചര്യങ്ങൾ
അനുയോജ്യം: വ്യക്തമായ ശ്രേണിപരമായ ഘടനയുള്ള വലിയ രേഖകൾ (സാമ്പത്തിക റിപ്പോർട്ടുകൾ, നിയമങ്ങൾ, പാഠപുസ്തകങ്ങൾ, മാനുവലുകൾ), ഏതാനും ഡസൻ മുതൽ നൂറുകണക്കിന് പേജുകൾ വരെ.
അനുയോജ്യമല്ലാത്തത്: ഘടനാപരമായ ഉള്ളടക്കമില്ലാത്ത രേഖകൾ, OCR ചെയ്യാത്ത സ്കാൻ ചെയ്ത രേഖകൾ, പട്ടികകൾ/ചാർട്ടുകൾ പ്രധാനമായ രേഖകൾ, മില്ലിസെക്കൻഡിൽ തത്സമയ പ്രതികരണം ആവശ്യമുള്ള സാഹചര്യങ്ങൾ.
7. സംഗ്രഹം
PageIndex-ൻ്റെ പ്രധാന സംഭാവന എന്നത് പ്രായോഗികമായ വെക്റ്റർ രഹിത RAG മാതൃക അവതരിപ്പിച്ചു എന്നതാണ്: രേഖയുടെ സ്വാഭാവിക ഘടന ഉപയോഗിച്ച് ട്രീ ഇൻഡെക്സ് നിർമ്മിക്കുക, വെക്റ്റർ സാമ്യത തിരയലിന് പകരം LLM അനുമാനം ഉപയോഗിക്കുക. ഈ രീതി വ്യക്തമായ ശ്രേണിപരമായ ഘടനയുള്ള പ്രൊഫഷണൽ വലിയ രേഖകളിൽ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു, കൂടാതെ പരമ്പരാഗത രീതികളെക്കാൾ വ്യാഖ്യാനിക്കാനും ഓഡിറ്റ് ചെയ്യാനും എളുപ്പമാണ്.





