PageIndex ആഴത്തിലുള്ള വിശകലനം: വെക്റ്റർ രഹിത അനുമാന RAG, AI-യെ മനുഷ്യ വിദഗ്ദ്ധരെപ്പോലെ രേഖകൾ വായിക്കാൻ അനുവദിക്കുന്നു

2/15/2026
4 min read

PageIndex എന്നത് Vectify AI ടീം ഓപ്പൺ സോഴ്സ് ചെയ്ത വെക്റ്റർ രഹിതവും, അനുമാനത്തെ അടിസ്ഥാനമാക്കിയുള്ളതുമായ RAG ചട്ടക്കൂടാണ് (GitHub 14.8k+ stars). ഇത് വലിയ രേഖകളെ ശ്രേണീപരമായ ട്രീ ഇൻഡെക്സുകളാക്കി മാറ്റുന്നു, LLM ഉപയോഗിച്ച് ട്രീയിൽ അനുമാനപരമായ വീണ്ടെടുക്കൽ നടത്തുന്നു, FinanceBench സാമ്പത്തിക രേഖ ചോദ്യോത്തര മാനദണ്ഡത്തിൽ 98.7% കൃത്യത കൈവരിക്കുന്നു.

1. പശ്ചാത്തലം: പരമ്പരാഗത RAG-യുടെ അഞ്ച് വേദന പോയിന്റുകൾ

RAG എന്നത് വലിയ മോഡൽ ആപ്ലിക്കേഷനുകളുടെ ഒരു പ്രധാന മാനദണ്ഡമായി മാറിയിരിക്കുന്നു. പ്രധാന രീതിയിൽ, പ്രീ-പ്രോസസ്സിംഗ് ഘട്ടത്തിൽ രേഖകളെ നിശ്ചിത ദൈർഘ്യമുള്ള ഭാഗങ്ങളായി (chunk) വിഭജിക്കുന്നു, embedding മോഡൽ വഴി വെക്റ്ററുകളാക്കി മാറ്റുന്നു, തുടർന്ന് വെക്റ്റർ ഡാറ്റാബേസിൽ സംഭരിക്കുന്നു; അന്വേഷണ സമയത്ത്, ഉപയോക്താവിൻ്റെ ചോദ്യത്തിന് സമാനമായ embedding ഉണ്ടാക്കുന്നു, വെക്റ്റർ സാമ്യത തിരയലിലൂടെ ഏറ്റവും മികച്ച Top-K ഫലങ്ങൾ വീണ്ടെടുക്കുന്നു, തുടർന്ന് LLM-ൻ്റെ ഇൻപുട്ട് കോൺടെക്സ്റ്റായി കൂട്ടിച്ചേർക്കുന്നു.

ഈ പ്രക്രിയ ചെറിയ ടെക്സ്റ്റുകളിലും പൊതുവായ സാഹചര്യങ്ങളിലും ഫലപ്രദമാണ്, എന്നാൽ പ്രൊഫഷണൽ വലിയ രേഖകളിൽ (സാമ്പത്തിക റിപ്പോർട്ടുകൾ, നിയമങ്ങൾ, സാങ്കേതിക മാനുവലുകൾ മുതലായവ) അഞ്ച് അടിസ്ഥാനപരമായ പ്രശ്നങ്ങൾ ഉണ്ട്:

1) സാമ്യം ≠ ബന്ധം. വെക്റ്റർ വീണ്ടെടുക്കൽ അനുമാനിക്കുന്നത് "ഏറ്റവും അടുത്ത സെമാൻ്റിക് ടെക്സ്റ്റ് ഭാഗം = ഏറ്റവും പ്രസക്തമായ ഉത്തര ഉറവിടം" എന്നാണ്, എന്നാൽ പ്രൊഫഷണൽ രേഖകളിൽ, ധാരാളം ഖണ്ഡികകൾ ഏകദേശം സമാനമായ അർത്ഥം പങ്കിടുന്നു, പക്ഷേ പ്രധാന വിശദാംശങ്ങളിൽ വലിയ വ്യത്യാസങ്ങളുണ്ട്.

2) ഹാർഡ് പാർട്ടീഷനിംഗ് കോൺടെക്സ്റ്റ് പൂർണ്ണതയെ തകർക്കുന്നു. 512 അല്ലെങ്കിൽ 1024 ടോക്കണുകളുടെ നിശ്ചിത വിൻഡോ ഉപയോഗിച്ച് രേഖകളെ വിഭജിക്കുന്നത് വാക്യങ്ങൾ, ഖണ്ഡികകൾ അല്ലെങ്കിൽ മുഴുവൻ ലോജിക്കൽ ഭാഗങ്ങളെയും മുറിച്ചുമാറ്റാൻ ഇടയാക്കുന്നു, ഇത് പ്രധാനപ്പെട്ട കോൺടെക്സ്റ്റ് നഷ്ടപ്പെടുത്തുന്നു.

3) അന്വേഷണ ഉദ്ദേശവും വിജ്ഞാന സ്ഥലവും തമ്മിലുള്ള തെറ്റായ ബന്ധം. ഉപയോക്താവിൻ്റെ അന്വേഷണം പ്രകടിപ്പിക്കുന്നത് "ഉദ്ദേശമാണ്" അല്ലാതെ "ഉള്ളടക്കമല്ല", query embedding-ഉം document embedding-ഉം വ്യത്യസ്ത സെമാൻ്റിക് സ്പേസുകളിലാണ്.

4) രേഖയിലെ ഉദ്ധരണികൾ കൈകാര്യം ചെയ്യാൻ കഴിയില്ല. പ്രൊഫഷണൽ രേഖകളിൽ സാധാരണയായി "വിശദാംശങ്ങൾക്ക് അനുബന്ധം G കാണുക", "പട്ടിക 5.3 റഫർ ചെയ്യുക" തുടങ്ങിയ ഉദ്ധരണികൾ ഉണ്ടാകാറുണ്ട്. ഈ ഉദ്ധരണികളും ഉദ്ധരിച്ച ഉള്ളടക്കവും തമ്മിൽ സെമാൻ്റിക് സാമ്യമില്ല, വെക്റ്റർ വീണ്ടെടുക്കലിന് ഇത് പൊരുത്തപ്പെടുത്താൻ കഴിയില്ല.

5) സ്വതന്ത്രമായ അന്വേഷണം, സംഭാഷണ ചരിത്രം ഉപയോഗിക്കാൻ കഴിയില്ല. ഓരോ വീണ്ടെടുക്കലും ചോദ്യത്തെ ഒരു സ്വതന്ത്ര അഭ്യർത്ഥനയായി കണക്കാക്കുന്നു, അതിനാൽ മുൻ സംഭാഷണത്തിൻ്റെ കോൺടെക്സ്റ്റ് ഉപയോഗിച്ച് ക്രമാനുഗതമായ വീണ്ടെടുക്കൽ നടത്താൻ കഴിയില്ല.

2. PageIndex മൊത്തത്തിലുള്ള ഘടന

PageIndex ഒരു വെക്റ്റർ രഹിതവും (Vectorless), അനുമാനത്തെ അടിസ്ഥാനമാക്കിയുള്ളതുമായ (Reasoning-based) RAG ചട്ടക്കൂടാണ്. ഇതിൻ്റെ പ്രധാന ആശയം ഇതാണ്: വെക്റ്റർ സ്പേസിൽ മോഡലിനെ ഏകദേശ പൊരുത്തപ്പെടുത്തൽ നടത്താൻ അനുവദിക്കുന്നതിനുപകരം, രേഖയുടെ ഘടനാപരമായ രൂപത്തിൽ മോഡലിനെ അനുമാനം നടത്താൻ അനുവദിക്കുക - "എവിടെ നോക്കണം" എന്ന് തീരുമാനിക്കുക, അല്ലാതെ "എന്താണ് സമാനമായി തോന്നുന്നത്" എന്നതിലല്ല ശ്രദ്ധ കേന്ദ്രീകരിക്കേണ്ടത്.

PageIndex ഒരു മനുഷ്യ വിദഗ്ദ്ധൻ വലിയ രേഖകൾ വായിക്കുന്ന രീതി അനുകരിക്കുന്നു: ആദ്യം ഉള്ളടക്കപ്പട്ടിക (table of contents) പരിശോധിക്കുക, ചോദ്യം അനുസരിച്ച് ബന്ധപ്പെട്ട അധ്യായങ്ങൾ കണ്ടെത്തുക, ലക്ഷ്യസ്ഥാനം കണ്ടെത്തുന്നതുവരെ ഓരോ പാളിയായി ആഴത്തിൽ ഇറങ്ങുക. ഈ പ്രക്രിയ രണ്ട് ഘട്ടങ്ങളിലൂടെ നടപ്പിലാക്കുന്നു:

  • ട്രീ ഘടനയിലുള്ള സൂചിക നിർമ്മിക്കുക: PDF/Markdown രേഖകളെ ശ്രേണീപരമായ JSON ട്രീ ആക്കി മാറ്റുക, ഇത് "LLM-ന് അനുയോജ്യമായ ഒരു ഡയറക്ടറി" പോലെയാണ്.
  • അനുമാനപരമായ ട്രീ തിരയൽ: LLM ചോദ്യം അനുസരിച്ച് ട്രീയിൽ അനുമാനം നടത്തി വിവരങ്ങൾ കണ്ടെത്തുന്നു, ബന്ധപ്പെട്ട നോഡുകൾ തിരിച്ചറിയുന്നു, ഉള്ളടക്കം എക്‌സ്‌ട്രാക്റ്റ് ചെയ്ത് ഉത്തരം നൽകുന്നു.

3. പ്രധാന മൊഡ്യൂളുകളുടെ വിശകലനം

3.1 PDF പ്രോസസ്സിംഗ് പൈപ്പ്ലൈൻ

PageIndex-ൻ്റെ PDF പ്രോസസ്സിംഗ് പൈപ്പ്ലൈൻ tree_parser() ഫംഗ്ഷൻ ഉപയോഗിച്ച് ക്രമീകരിക്കുന്നു. ഇതിലെ പ്രധാന പ്രവർത്തനങ്ങൾ ഇവയാണ്: ഡയറക്ടറി കണ്ടെത്തൽ (മൂന്ന് മോഡ് ബ്രാഞ്ചുകൾ), ആമുഖം ചേർക്കൽ, ഫ്ലാറ്റ് ലിസ്റ്റിനെ ശ്രേണിപരമായ ട്രീ ആക്കി മാറ്റുക, വലിയ നോഡുകളെ വീണ്ടും ചെറുതാക്കുക, നോഡുകൾക്ക് കൂടുതൽ വിവരങ്ങൾ നൽകുക, JSON ട്രീ ഘടന ഔട്ട്പുട്ട് ചെയ്യുക.

മൂന്ന് പ്രോസസ്സിംഗ് മോഡുകൾ:

  • process_toc_with_page_numbers (ഉള്ളടക്കപ്പട്ടിക + പേജ് നമ്പറുകൾ): LLM ഉപയോഗിച്ച് ഒറിജിനൽ ഉള്ളടക്കപ്പട്ടികയെ ഘടനാപരമായ JSON ആക്കി മാറ്റുക, ലോജിക്കൽ പേജ് നമ്പറുകളെ ഫിസിക്കൽ പേജ് നമ്പറുകളുമായി ബന്ധിപ്പിക്കുക.
  • process_no_toc (ഉള്ളടക്കപ്പട്ടിക ഇല്ലാത്തത്): LLM ഉപയോഗിച്ച് പ്രധാന ഉള്ളടക്കത്തിൽ നിന്ന് നേരിട്ട് ശ്രേണിപരമായ ഘടന കണ്ടെത്തുക.
  • process_toc_no_page_numbers (ഉള്ളടക്കപ്പട്ടിക ഉണ്ട്, പക്ഷേ പേജ് നമ്പറുകളില്ല): ഘടന എക്‌സ്‌ട്രാക്റ്റ് ചെയ്ത ശേഷം ഫിസിക്കൽ പേജ് നമ്പറുകൾ അനുമാനിച്ചു ചേർക്കുക.

3.2 ട്രീ ഘടന ഡാറ്റാ മോഡൽ

ട്രീയിലെ ഓരോ നോഡിലും title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (ചൈൽഡ് നോഡുകളുടെ അറേ) തുടങ്ങിയ ഫീൽഡുകൾ അടങ്ങിയിരിക്കുന്നു.

3.3 അനുമാനപരമായ വീണ്ടെടുക്കൽ സംവിധാനം

വീണ്ടെടുക്കൽ ഘട്ടത്തിൽ വെക്റ്റർ കണക്കുകൂട്ടലുകളെ ആശ്രയിക്കുന്നില്ല. LLM ഉപയോക്താവിൻ്റെ ചോദ്യവും രേഖയുടെ ട്രീ ഘടനയും സ്വീകരിക്കുന്നു, നോഡിൻ്റെ തലക്കെട്ടും സംഗ്രഹവും അടിസ്ഥാനമാക്കി അനുമാനം നടത്തുന്നു, അതിൻ്റെ "ചിന്താ പ്രക്രിയയും" ബന്ധപ്പെട്ട node_id-കളുടെ ലിസ്റ്റും ഔട്ട്പുട്ട് ചെയ്യുന്നു. തുടർന്ന് സിസ്റ്റം node_id അനുസരിച്ച് node_map-ൽ നിന്ന് ബന്ധപ്പെട്ട നോഡുകളുടെ പൂർണ്ണമായ ടെക്സ്റ്റ് എക്‌സ്‌ട്രാക്റ്റ് ചെയ്യുന്നു, കോൺടെക്സ്റ്റായി കൂട്ടിച്ചേർത്ത് LLM-ന് നൽകി അന്തിമ ഉത്തരം ഉണ്ടാക്കുന്നു.

4. പ്രധാന ഡിസൈൻ ഹൈലൈറ്റുകൾ

  • വെക്റ്റർ രഹിത ആർക്കിടെക്ചർ: embedding മോഡലും വെക്റ്റർ ഡാറ്റാബേസും ആവശ്യമില്ല, ഇത് ഇൻഫ്രാസ്ട്രക്ചർ ചിലവ് കുറയ്ക്കുന്നു, വിന്യാസം ലളിതമാക്കുന്നു.
  • രേഖയുടെ സ്വാഭാവിക ഘടന നിലനിർത്തുന്നു: രേഖയുടെ അധ്യായങ്ങൾ/ഉപവിഭാഗങ്ങൾ/ചെറിയ അധ്യായങ്ങൾ അനുസരിച്ച് ഉള്ളടക്കം ക്രമീകരിക്കുന്നു, ഇത് chunk-കൾക്കിടയിൽ കോൺടെക്സ്റ്റ് നഷ്ടപ്പെടുന്നത് ഒഴിവാക്കുന്നു.
  • വീണ്ടെടുക്കലിൻ്റെ വ്യാഖ്യാനക്ഷമത: ഓരോ വീണ്ടെടുക്കലിലും പൂർണ്ണമായ അനുമാന ശൃംഖല നൽകുന്നു, ഇത് പാലിക്കൽ ആവശ്യകതകളുള്ള സാഹചര്യങ്ങളിൽ വ്യക്തമായ നേട്ടമുണ്ടാക്കുന്നു.

5. വിലയിരുത്തൽ ഫലങ്ങൾ

Mafin 2.5 എന്നത് PageIndex അടിസ്ഥാനമാക്കിയുള്ള ഒരു സാമ്പത്തിക രേഖ ചോദ്യോത്തര സംവിധാനമാണ്. FinanceBench-ൽ (സാമ്പത്തിക രേഖ QA ബെഞ്ച്മാർക്ക് ടെസ്റ്റിംഗ്) 98.7% കൃത്യത കൈവരിച്ചു, ഇത് Perplexity (45%) , GPT-4o (31%) എന്നിവയെക്കാൾ വളരെ കൂടുതലാണ്.

6. അനുയോജ്യമായ സാഹചര്യങ്ങൾ

അനുയോജ്യം: വ്യക്തമായ ശ്രേണിപരമായ ഘടനയുള്ള വലിയ രേഖകൾ (സാമ്പത്തിക റിപ്പോർട്ടുകൾ, നിയമങ്ങൾ, പാഠപുസ്തകങ്ങൾ, മാനുവലുകൾ), ഏതാനും ഡസൻ മുതൽ നൂറുകണക്കിന് പേജുകൾ വരെ.

അനുയോജ്യമല്ലാത്തത്: ഘടനാപരമായ ഉള്ളടക്കമില്ലാത്ത രേഖകൾ, OCR ചെയ്യാത്ത സ്കാൻ ചെയ്ത രേഖകൾ, പട്ടികകൾ/ചാർട്ടുകൾ പ്രധാനമായ രേഖകൾ, മില്ലിസെക്കൻഡിൽ തത്സമയ പ്രതികരണം ആവശ്യമുള്ള സാഹചര്യങ്ങൾ.

7. സംഗ്രഹം

PageIndex-ൻ്റെ പ്രധാന സംഭാവന എന്നത് പ്രായോഗികമായ വെക്റ്റർ രഹിത RAG മാതൃക അവതരിപ്പിച്ചു എന്നതാണ്: രേഖയുടെ സ്വാഭാവിക ഘടന ഉപയോഗിച്ച് ട്രീ ഇൻഡെക്സ് നിർമ്മിക്കുക, വെക്റ്റർ സാമ്യത തിരയലിന് പകരം LLM അനുമാനം ഉപയോഗിക്കുക. ഈ രീതി വ്യക്തമായ ശ്രേണിപരമായ ഘടനയുള്ള പ്രൊഫഷണൽ വലിയ രേഖകളിൽ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു, കൂടാതെ പരമ്പരാഗത രീതികളെക്കാൾ വ്യാഖ്യാനിക്കാനും ഓഡിറ്റ് ചെയ്യാനും എളുപ്പമാണ്.

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy മാറ്റം മാർഗ്ഗനിർദ്ദേശം: എങ്ങനെ മിനുക്കിയ പാരമ്പര്യതലത്തെ പെട്ടി നേടാം

Claude Code Buddy മാറ്റം മാർഗ്ഗനിർദ്ദേശം: എങ്ങനെ മിനുക്കിയ പാരമ്പര്യതലത്തെ പെട്ടി നേടാം 2026年4月1日,Anthropic 在 Claude Cod...

Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയിTechnology

Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയി

Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയി ഞാൻ എപ്പോഴും Obsidian-ന്റെ ആധാരഭ...

OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റായ വഴിയിലേക്കു പോയതായി ആന്തരികമായി അംഗീകരിച്ചുTechnology

OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റായ വഴിയിലേക്കു പോയതായി ആന്തരികമായി അംഗീകരിച്ചു

OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റാ...

2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരുംHealth

2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരും

2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരും പുതിയ ...

അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാംHealth

അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാം

അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാം മാർച്ച് മാസത്തിന്റെ മധ്യത്തിൽ, നിങ്ങളുടെ കുറവാക്കൽ പദ്ധതിയേന്താണ്...

📝
Technology

AI Browser 24 മണിക്കൂർ സ്ഥിരമായ പ്രവർത്തന മാർഗ്ഗനിർദ്ദേശം

AI Browser 24 മണിക്കൂർ സ്ഥിരമായ പ്രവർത്തന മാർഗ്ഗനിർദ്ദേശം ഈ ട്യൂട്ടോറിയൽ ഒരു സ്ഥിരമായ, ദീർഘകാല പ്രവർത്തനമുള്ള AI ബ്രൗസർ ...