PageIndex ஆழமான பகுப்பாய்வு: திசையன் அல்லாத அனுமான வகை RAG, AI ஐ மனித நிபுணர்களைப் போல் ஆவணங்களைப் படிக்க வைக்கிறது

2/15/2026
4 min read

PageIndex என்பது Vectify AI குழுவால் திறந்த மூலமாக வெளியிடப்பட்ட திசையன் அல்லாத, அனுமான வகை RAG கட்டமைப்பு ஆகும் (GitHub 14.8k+ நட்சத்திரங்கள்). இது நீண்ட ஆவணங்களை ஒரு படிநிலை மர அட்டவணைக்கு மாற்றுகிறது, மரத்தில் அனுமான மீட்டெடுப்புக்கு LLM ஐப் பயன்படுத்துகிறது, மேலும் FinanceBench நிதி ஆவண கேள்வி பதில் தரநிலைகளில் 98.7% துல்லியத்தை அடைகிறது.

1. பின்னணி: பாரம்பரிய RAG இன் ஐந்து வலி புள்ளிகள்

RAG பெரிய மாதிரி பயன்பாடுகளுக்கான உண்மையான தரநிலையாக மாறியுள்ளது. முக்கிய தீர்வு ஆவணத்தை நிலையான நீளமுள்ள பகுதிகளாக வெட்டி, உட்பொதிக்கும் மாதிரியின் மூலம் திசையன்களாக மாற்றி, திசையன் தரவுத்தளத்தில் சேமிக்கிறது; வினவலுக்கு, பயனர் கேள்விக்கு அதே உட்பொதிப்பு செய்யப்படுகிறது, பின்னர் திசையன் ஒற்றுமை தேடல் மூலம் சிறந்த-K முடிவுகள் திரும்ப அழைக்கப்படுகின்றன, மேலும் LLM இன் உள்ளீட்டு சூழலாக இணைக்கப்படுகின்றன.

இந்த செயல்முறை குறுகிய உரை மற்றும் பொதுவான காட்சிகளில் பயனுள்ளதாக இருக்கும், ஆனால் தொழில்முறை நீண்ட ஆவணங்கள் (நிதி அறிக்கைகள், சட்டங்கள் மற்றும் ஒழுங்குமுறைகள், தொழில்நுட்ப கையேடுகள் போன்றவை) காட்சிகளில், ஐந்து அடிப்படை சிக்கல்கள் வெளிப்படுகின்றன:

1) ஒற்றுமை ≠ தொடர்பு. திசையன் மீட்டெடுப்பு "சொற்பொருள் ரீதியாக மிகவும் ஒத்த உரைத் தொகுதி = மிகவும் தொடர்புடைய பதில் ஆதாரம்" என்று கருதுகிறது, ஆனால் தொழில்முறை ஆவணங்களில், ஏராளமான பத்திகள் தோராயமான சொற்பொருளைப் பகிர்ந்து கொள்கின்றன, ஆனால் முக்கிய விவரங்களில் மிகப்பெரிய வேறுபாடுகள் உள்ளன.

2) கடினமான பிளவு சூழல் ஒருமைப்பாட்டை அழிக்கிறது. 512 அல்லது 1024 டோக்கன்களின் நிலையான சாளரத்தின் மூலம் ஆவணத்தை வெட்டுவது, வாக்கியங்கள், பத்திகள் அல்லது முழு தர்க்கரீதியான பிரிவையும் துண்டிக்கிறது, இது முக்கியமான சூழல் இழப்புக்கு வழிவகுக்கிறது.

3) கேள்வி நோக்கம் மற்றும் அறிவு இடைவெளி தவறாக அமைதல். பயனரின் கேள்வி "உள்ளடக்கம்" என்பதை விட "நோக்கத்தை" வெளிப்படுத்துகிறது, மேலும் query embedding மற்றும் document embedding வெவ்வேறு சொற்பொருள் இடைவெளிகளில் உள்ளன.

4) ஆவணத்தில் உள்ள மேற்கோள்களைக் கையாள முடியவில்லை. தொழில்முறை ஆவணங்களில் "விவரங்களுக்கு இணைப்பு G ஐப் பார்க்கவும்", "அட்டவணை 5.3 ஐப் பார்க்கவும்" போன்ற மேற்கோள்கள் பொதுவானவை, இந்த மேற்கோள்களுக்கும் மேற்கோள் காட்டப்பட்ட உள்ளடக்கத்திற்கும் இடையில் சொற்பொருள் ஒற்றுமை இல்லை, மேலும் திசையன் மீட்டெடுப்பு பொருந்த முடியாது.

5) சுயாதீனமான வினவல், உரையாடல் வரலாற்றைப் பயன்படுத்த முடியாது. ஒவ்வொரு மீட்டெடுப்பும் வினவலை ஒரு சுயாதீனமான கோரிக்கையாகக் கருதுகிறது, மேலும் முந்தைய உரையாடல் சூழலுடன் படிப்படியான மீட்டெடுப்பை இணைக்க முடியாது.

2. PageIndex ஒட்டுமொத்த கட்டமைப்பு

PageIndex என்பது ஒரு திசையன் அல்லாத (Vectorless), அனுமான அடிப்படையிலான (Reasoning-based) RAG கட்டமைப்பு. இதன் முக்கிய யோசனை: திசையன் இடத்தில் தோராயமான பொருத்தத்தை மாதிரி செய்ய அனுமதிப்பதற்குப் பதிலாக, ஆவணத்தின் கட்டமைக்கப்பட்ட பிரதிநிதித்துவத்தில் மாதிரியை அனுமானிக்க அனுமதிக்கவும் - "எங்கு பார்க்க வேண்டும்" என்பதைத் தீர்மானிக்கவும், "என்ன ஒத்ததாகத் தெரிகிறது" என்பதை மட்டும் அல்ல.

PageIndex ஒரு நீண்ட ஆவணத்தை படிக்கும் மனித நிபுணரின் வழியை உருவகப்படுத்துகிறது: முதலில் அட்டவணையைப் பார்க்கவும், கேள்வியின் அடிப்படையில் தொடர்புடைய அத்தியாயங்களைத் தீர்மானிக்கவும், இலக்கு உள்ளடக்கத்தைக் கண்டுபிடிக்கும் வரை படிப்படியாக ஆழமாகச் செல்லவும். இந்த செயல்முறை இரண்டு படிகள் மூலம் அடையப்படுகிறது:

  • மர அமைப்பு அட்டவணையை உருவாக்குதல்: PDF/Markdown ஆவணத்தை ஒரு படிநிலை JSON மரமாக மாற்றவும், இது "LLM க்கு உகந்த அட்டவணை" போன்றது
  • அனுமான மரத் தேடல்: LLM கேள்வியின் அடிப்படையில் மரத்தில் அனுமான வழிசெலுத்தலைச் செய்கிறது, தொடர்புடைய முனைகளைத் தீர்மானிக்கிறது, உள்ளடக்கத்தைப் பிரித்தெடுத்து பதில்களை உருவாக்குகிறது

3. முக்கிய தொகுதி பிரித்தல்

3.1 PDF செயலாக்க குழாய்

PageIndex இன் PDF செயலாக்க குழாய் tree_parser() செயல்பாட்டால் ஏற்பாடு செய்யப்பட்டுள்ளது, மேலும் முக்கிய செயல்முறைகளில்: அடைவு கண்டறிதல் (மூன்று முறை கிளைகள்), முன்னுரையை நிரப்புதல், தட்டையான பட்டியலை படிநிலை மரமாக மாற்றுதல், பெரிய முனைகளை மீண்டும் மீண்டும் பிரித்தல், முனைகளை செறிவூட்டுதல், JSON மர அமைப்பு வெளியீடு ஆகியவை அடங்கும்.

மூன்று செயலாக்க முறைகள்:

  • process_toc_with_page_numbers (அடைவு + பக்க எண்கள்): LLM ஐப் பயன்படுத்தி அசல் அட்டவணையை கட்டமைக்கப்பட்ட JSON ஆக மாற்றவும், தர்க்கரீதியான பக்க எண்களை இயற்பியல் பக்க எண்களுக்கு மேப் செய்யவும்
  • process_no_toc (அடைவு இல்லை): LLM மூலம் முக்கிய உள்ளடக்கத்திலிருந்து நேரடியாக படிநிலை கட்டமைப்பை அனுமானிக்கவும்
  • process_toc_no_page_numbers (அடைவு உள்ளது ஆனால் பக்க எண்கள் இல்லை): கட்டமைப்பைப் பிரித்தெடுத்து, பின்னர் இயற்பியல் பக்க எண்களை அனுமானித்து நிரப்பவும்

3.2 மர அமைப்பு தரவு மாதிரி

மரத்தில் உள்ள ஒவ்வொரு முனையிலும்: தலைப்பு, node_id, start_index, end_index, summary, prefix_summary, text, nodes (குழந்தை முனை வரிசை) போன்ற புலங்கள் உள்ளன.

3.3 அனுமான மீட்டெடுப்பு பொறிமுறை

மீட்டெடுப்பு கட்டம் எந்த திசையன் கணக்கீட்டையும் நம்பவில்லை. LLM பயனர் கேள்வி மற்றும் ஆவண மர கட்டமைப்பைப் பெறுகிறது, மேலும் முனை தலைப்பு மற்றும் சுருக்கத்தின் அடிப்படையில் அனுமானத்தை மேற்கொள்கிறது, அதன் "சிந்தனை செயல்முறை" மற்றும் தொடர்புடைய node_id பட்டியலை வெளியிடுகிறது. பின்னர் அமைப்பு node_id இன் படி node_map இலிருந்து தொடர்புடைய முனையின் முழு உரையை பிரித்தெடுத்து, சூழலாக இணைத்து LLM க்கு இறுதி பதில்களை உருவாக்க கொடுக்கிறது.

4. முக்கிய வடிவமைப்பு சிறப்பம்சங்கள்

  • திசையன் அல்லாத கட்டமைப்பு: உட்பொதிக்கும் மாதிரி மற்றும் திசையன் தரவுத்தளம் தேவையில்லை, உள்கட்டமைப்பு செலவுகளைக் குறைக்கிறது மற்றும் வரிசைப்படுத்தலை எளிதாக்குகிறது
  • ஆவணத்தின் இயற்கையான கட்டமைப்பைத் தக்கவைத்தல்: ஆவணத்தின் உள்ளார்ந்த அத்தியாயங்கள்/பிரிவுகள்/துணை அத்தியாயங்களின்படி உள்ளடக்கத்தை ஒழுங்கமைக்கவும், chunk முழுவதும் சூழல் இழப்பைத் தவிர்க்கவும்
  • மீட்டெடுப்பின் விளக்கமளிக்கும் தன்மை: ஒவ்வொரு மீட்டெடுப்பும் முழு அனுமான சங்கிலியையும் வழங்குகிறது, இது அதிக இணக்கத் தேவைகள் உள்ள காட்சிகளில் ஒரு தெளிவான நன்மையைக் கொண்டுள்ளது

5. மதிப்பீட்டு முடிவுகள்

Mafin 2.5 என்பது PageIndex ஐ அடிப்படையாகக் கொண்ட நிதி ஆவண கேள்வி பதில் அமைப்பு ஆகும். FinanceBench (நிதி ஆவண QA தரநிலை சோதனை) இல் 98.7% துல்லியத்தை எட்டியது, இது Perplexity (45%) மற்றும் GPT-4o (31%) ஐ விட அதிகமாகும்.

6. பொருந்தக்கூடிய காட்சிகள்

பொருத்தம்: தெளிவான படிநிலை அமைப்பு கொண்ட நீண்ட ஆவணங்கள் (நிதி அறிக்கைகள், ஒழுங்குமுறைகள், பாடப்புத்தகங்கள், கையேடுகள்), பல்லாயிரக்கணக்கான பக்கங்கள் முதல் நூற்றுக்கணக்கான பக்கங்கள் வரை

பொருத்தமற்றது: கட்டமைப்பற்ற உள்ளடக்கம் கொண்ட ஆவணங்கள், OCR செய்யப்படாத ஸ்கேன் செய்யப்பட்ட ஆவணங்கள், அட்டவணைகள்/வரைபடங்களை அடிப்படையாகக் கொண்ட ஆவணங்கள், மில்லி விநாடி நிகழ்நேர பதில்கள் தேவைப்படும் காட்சிகள்

7. சுருக்கம்

PageIndex இன் முக்கிய பங்களிப்பு என்னவென்றால், ஒரு நடைமுறை திசையன் அல்லாத RAG முன்னுதாரணத்தை முன்வைக்கிறது: ஆவணத்தின் இயற்கையான கட்டமைப்பைப் பயன்படுத்தி ஒரு மர அட்டவணையை உருவாக்குதல், திசையன் ஒற்றுமை தேடலுக்கு பதிலாக LLM அனுமானத்தைப் பயன்படுத்துதல். இந்த தீர்வு ஒரு தெளிவான படிநிலை அமைப்பு கொண்ட தொழில்முறை நீண்ட ஆவணக் காட்சிகளில் சிறப்பாக செயல்படுகிறது, மேலும் விளக்கமளிக்கும் தன்மை மற்றும் தணிக்கை செய்யும் திறனும் பாரம்பரிய தீர்வுகளை விட கணிசமாக சிறந்தவை.

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy மாற்றம் வழிகாட்டி: எவ்வாறு மின்ன闪传说 நிலை செல்லப்பிராணிகளை பெறுவது

Claude Code Buddy மாற்றம் வழிகாட்டி: எவ்வாறு மின்ன闪传说 நிலை செல்லப்பிராணிகளை பெறுவது 2026年4月1日,Anthropic 在 Claude Code 2....

Obsidian வெளியிட்ட Defuddle, Obsidian Web Clipper-ஐ புதிய உயரத்திற்கு கொண்டு சென்றதுTechnology

Obsidian வெளியிட்ட Defuddle, Obsidian Web Clipper-ஐ புதிய உயரத்திற்கு கொண்டு சென்றது

Obsidian வெளியிட்ட Defuddle, Obsidian Web Clipper-ஐ புதிய உயரத்திற்கு கொண்டு சென்றது நான் எப்போதும் Obsidian-இன் மையக் ...

OpenAI திடீரென "மூன்று-in-ஒன்று" அறிவிப்பு: உலாவி + நிரலாக்கம் + ChatGPT இணைப்பு, கடந்த ஆண்டு தவறான பாதையில் சென்றது என உள்ளூரில் ஒப்புதல்Technology

OpenAI திடீரென "மூன்று-in-ஒன்று" அறிவிப்பு: உலாவி + நிரலாக்கம் + ChatGPT இணைப்பு, கடந்த ஆண்டு தவறான பாதையில் சென்றது என உள்ளூரில் ஒப்புதல்

OpenAI திடீரென "மூன்று-in-ஒன்று" அறிவிப்பு: உலாவி + நிரலாக்கம் + ChatGPT இணைப்பு, கடந்த ஆண்டு தவறான பாதையில் சென்றது என ...

2026, உங்களை 'சுய கட்டுப்பாடு' செய்ய அழைக்காதீர்கள்! இந்த 8 சிறிய விஷயங்களைச் செய்யுங்கள், ஆரோக்கியம் தானாகவே வரும்Health

2026, உங்களை 'சுய கட்டுப்பாடு' செய்ய அழைக்காதீர்கள்! இந்த 8 சிறிய விஷயங்களைச் செய்யுங்கள், ஆரோக்கியம் தானாகவே வரும்

2026, உங்களை 'சுய கட்டுப்பாடு' செய்ய அழைக்காதீர்கள்! இந்த 8 சிறிய விஷயங்களைச் செய்யுங்கள், ஆரோக்கியம் தானாகவே வரும் புத...

அந்த முயற்சியுடன் எடை குறைக்க முயற்சிக்கும் அம்மாக்கள், இங்கே தவறுகிறார்கள்Health

அந்த முயற்சியுடன் எடை குறைக்க முயற்சிக்கும் அம்மாக்கள், இங்கே தவறுகிறார்கள்

அந்த முயற்சியுடன் எடை குறைக்க முயற்சிக்கும் அம்மாக்கள், இங்கே தவறுகிறார்கள் மார்ச் மாதம் மிதமான நிலையில் உள்ளது, உங்கள்...

📝
Technology

AI Browser 24 மணி நேர நிலையான இயக்கம் வழிகாட்டி

AI Browser 24 மணி நேர நிலையான இயக்கம் வழிகாட்டி இந்த பயிற்சி நிலையான, நீண்ட காலம் இயங்கும் AI உலாவி சூழலை அமைக்க எப்படி ...