PageIndex ஆழமான பகுப்பாய்வு: திசையன் அல்லாத அனுமான வகை RAG, AI ஐ மனித நிபுணர்களைப் போல் ஆவணங்களைப் படிக்க வைக்கிறது

2/15/2026
4 min read

PageIndex என்பது Vectify AI குழுவால் திறந்த மூலமாக வெளியிடப்பட்ட திசையன் அல்லாத, அனுமான வகை RAG கட்டமைப்பு ஆகும் (GitHub 14.8k+ நட்சத்திரங்கள்). இது நீண்ட ஆவணங்களை ஒரு படிநிலை மர அட்டவணைக்கு மாற்றுகிறது, மரத்தில் அனுமான மீட்டெடுப்புக்கு LLM ஐப் பயன்படுத்துகிறது, மேலும் FinanceBench நிதி ஆவண கேள்வி பதில் தரநிலைகளில் 98.7% துல்லியத்தை அடைகிறது.

1. பின்னணி: பாரம்பரிய RAG இன் ஐந்து வலி புள்ளிகள்

RAG பெரிய மாதிரி பயன்பாடுகளுக்கான உண்மையான தரநிலையாக மாறியுள்ளது. முக்கிய தீர்வு ஆவணத்தை நிலையான நீளமுள்ள பகுதிகளாக வெட்டி, உட்பொதிக்கும் மாதிரியின் மூலம் திசையன்களாக மாற்றி, திசையன் தரவுத்தளத்தில் சேமிக்கிறது; வினவலுக்கு, பயனர் கேள்விக்கு அதே உட்பொதிப்பு செய்யப்படுகிறது, பின்னர் திசையன் ஒற்றுமை தேடல் மூலம் சிறந்த-K முடிவுகள் திரும்ப அழைக்கப்படுகின்றன, மேலும் LLM இன் உள்ளீட்டு சூழலாக இணைக்கப்படுகின்றன.

இந்த செயல்முறை குறுகிய உரை மற்றும் பொதுவான காட்சிகளில் பயனுள்ளதாக இருக்கும், ஆனால் தொழில்முறை நீண்ட ஆவணங்கள் (நிதி அறிக்கைகள், சட்டங்கள் மற்றும் ஒழுங்குமுறைகள், தொழில்நுட்ப கையேடுகள் போன்றவை) காட்சிகளில், ஐந்து அடிப்படை சிக்கல்கள் வெளிப்படுகின்றன:

1) ஒற்றுமை ≠ தொடர்பு. திசையன் மீட்டெடுப்பு "சொற்பொருள் ரீதியாக மிகவும் ஒத்த உரைத் தொகுதி = மிகவும் தொடர்புடைய பதில் ஆதாரம்" என்று கருதுகிறது, ஆனால் தொழில்முறை ஆவணங்களில், ஏராளமான பத்திகள் தோராயமான சொற்பொருளைப் பகிர்ந்து கொள்கின்றன, ஆனால் முக்கிய விவரங்களில் மிகப்பெரிய வேறுபாடுகள் உள்ளன.

2) கடினமான பிளவு சூழல் ஒருமைப்பாட்டை அழிக்கிறது. 512 அல்லது 1024 டோக்கன்களின் நிலையான சாளரத்தின் மூலம் ஆவணத்தை வெட்டுவது, வாக்கியங்கள், பத்திகள் அல்லது முழு தர்க்கரீதியான பிரிவையும் துண்டிக்கிறது, இது முக்கியமான சூழல் இழப்புக்கு வழிவகுக்கிறது.

3) கேள்வி நோக்கம் மற்றும் அறிவு இடைவெளி தவறாக அமைதல். பயனரின் கேள்வி "உள்ளடக்கம்" என்பதை விட "நோக்கத்தை" வெளிப்படுத்துகிறது, மேலும் query embedding மற்றும் document embedding வெவ்வேறு சொற்பொருள் இடைவெளிகளில் உள்ளன.

4) ஆவணத்தில் உள்ள மேற்கோள்களைக் கையாள முடியவில்லை. தொழில்முறை ஆவணங்களில் "விவரங்களுக்கு இணைப்பு G ஐப் பார்க்கவும்", "அட்டவணை 5.3 ஐப் பார்க்கவும்" போன்ற மேற்கோள்கள் பொதுவானவை, இந்த மேற்கோள்களுக்கும் மேற்கோள் காட்டப்பட்ட உள்ளடக்கத்திற்கும் இடையில் சொற்பொருள் ஒற்றுமை இல்லை, மேலும் திசையன் மீட்டெடுப்பு பொருந்த முடியாது.

5) சுயாதீனமான வினவல், உரையாடல் வரலாற்றைப் பயன்படுத்த முடியாது. ஒவ்வொரு மீட்டெடுப்பும் வினவலை ஒரு சுயாதீனமான கோரிக்கையாகக் கருதுகிறது, மேலும் முந்தைய உரையாடல் சூழலுடன் படிப்படியான மீட்டெடுப்பை இணைக்க முடியாது.

2. PageIndex ஒட்டுமொத்த கட்டமைப்பு

PageIndex என்பது ஒரு திசையன் அல்லாத (Vectorless), அனுமான அடிப்படையிலான (Reasoning-based) RAG கட்டமைப்பு. இதன் முக்கிய யோசனை: திசையன் இடத்தில் தோராயமான பொருத்தத்தை மாதிரி செய்ய அனுமதிப்பதற்குப் பதிலாக, ஆவணத்தின் கட்டமைக்கப்பட்ட பிரதிநிதித்துவத்தில் மாதிரியை அனுமானிக்க அனுமதிக்கவும் - "எங்கு பார்க்க வேண்டும்" என்பதைத் தீர்மானிக்கவும், "என்ன ஒத்ததாகத் தெரிகிறது" என்பதை மட்டும் அல்ல.

PageIndex ஒரு நீண்ட ஆவணத்தை படிக்கும் மனித நிபுணரின் வழியை உருவகப்படுத்துகிறது: முதலில் அட்டவணையைப் பார்க்கவும், கேள்வியின் அடிப்படையில் தொடர்புடைய அத்தியாயங்களைத் தீர்மானிக்கவும், இலக்கு உள்ளடக்கத்தைக் கண்டுபிடிக்கும் வரை படிப்படியாக ஆழமாகச் செல்லவும். இந்த செயல்முறை இரண்டு படிகள் மூலம் அடையப்படுகிறது:

  • மர அமைப்பு அட்டவணையை உருவாக்குதல்: PDF/Markdown ஆவணத்தை ஒரு படிநிலை JSON மரமாக மாற்றவும், இது "LLM க்கு உகந்த அட்டவணை" போன்றது
  • அனுமான மரத் தேடல்: LLM கேள்வியின் அடிப்படையில் மரத்தில் அனுமான வழிசெலுத்தலைச் செய்கிறது, தொடர்புடைய முனைகளைத் தீர்மானிக்கிறது, உள்ளடக்கத்தைப் பிரித்தெடுத்து பதில்களை உருவாக்குகிறது

3. முக்கிய தொகுதி பிரித்தல்

3.1 PDF செயலாக்க குழாய்

PageIndex இன் PDF செயலாக்க குழாய் tree_parser() செயல்பாட்டால் ஏற்பாடு செய்யப்பட்டுள்ளது, மேலும் முக்கிய செயல்முறைகளில்: அடைவு கண்டறிதல் (மூன்று முறை கிளைகள்), முன்னுரையை நிரப்புதல், தட்டையான பட்டியலை படிநிலை மரமாக மாற்றுதல், பெரிய முனைகளை மீண்டும் மீண்டும் பிரித்தல், முனைகளை செறிவூட்டுதல், JSON மர அமைப்பு வெளியீடு ஆகியவை அடங்கும்.

மூன்று செயலாக்க முறைகள்:

  • process_toc_with_page_numbers (அடைவு + பக்க எண்கள்): LLM ஐப் பயன்படுத்தி அசல் அட்டவணையை கட்டமைக்கப்பட்ட JSON ஆக மாற்றவும், தர்க்கரீதியான பக்க எண்களை இயற்பியல் பக்க எண்களுக்கு மேப் செய்யவும்
  • process_no_toc (அடைவு இல்லை): LLM மூலம் முக்கிய உள்ளடக்கத்திலிருந்து நேரடியாக படிநிலை கட்டமைப்பை அனுமானிக்கவும்
  • process_toc_no_page_numbers (அடைவு உள்ளது ஆனால் பக்க எண்கள் இல்லை): கட்டமைப்பைப் பிரித்தெடுத்து, பின்னர் இயற்பியல் பக்க எண்களை அனுமானித்து நிரப்பவும்

3.2 மர அமைப்பு தரவு மாதிரி

மரத்தில் உள்ள ஒவ்வொரு முனையிலும்: தலைப்பு, node_id, start_index, end_index, summary, prefix_summary, text, nodes (குழந்தை முனை வரிசை) போன்ற புலங்கள் உள்ளன.

3.3 அனுமான மீட்டெடுப்பு பொறிமுறை

மீட்டெடுப்பு கட்டம் எந்த திசையன் கணக்கீட்டையும் நம்பவில்லை. LLM பயனர் கேள்வி மற்றும் ஆவண மர கட்டமைப்பைப் பெறுகிறது, மேலும் முனை தலைப்பு மற்றும் சுருக்கத்தின் அடிப்படையில் அனுமானத்தை மேற்கொள்கிறது, அதன் "சிந்தனை செயல்முறை" மற்றும் தொடர்புடைய node_id பட்டியலை வெளியிடுகிறது. பின்னர் அமைப்பு node_id இன் படி node_map இலிருந்து தொடர்புடைய முனையின் முழு உரையை பிரித்தெடுத்து, சூழலாக இணைத்து LLM க்கு இறுதி பதில்களை உருவாக்க கொடுக்கிறது.

4. முக்கிய வடிவமைப்பு சிறப்பம்சங்கள்

  • திசையன் அல்லாத கட்டமைப்பு: உட்பொதிக்கும் மாதிரி மற்றும் திசையன் தரவுத்தளம் தேவையில்லை, உள்கட்டமைப்பு செலவுகளைக் குறைக்கிறது மற்றும் வரிசைப்படுத்தலை எளிதாக்குகிறது
  • ஆவணத்தின் இயற்கையான கட்டமைப்பைத் தக்கவைத்தல்: ஆவணத்தின் உள்ளார்ந்த அத்தியாயங்கள்/பிரிவுகள்/துணை அத்தியாயங்களின்படி உள்ளடக்கத்தை ஒழுங்கமைக்கவும், chunk முழுவதும் சூழல் இழப்பைத் தவிர்க்கவும்
  • மீட்டெடுப்பின் விளக்கமளிக்கும் தன்மை: ஒவ்வொரு மீட்டெடுப்பும் முழு அனுமான சங்கிலியையும் வழங்குகிறது, இது அதிக இணக்கத் தேவைகள் உள்ள காட்சிகளில் ஒரு தெளிவான நன்மையைக் கொண்டுள்ளது

5. மதிப்பீட்டு முடிவுகள்

Mafin 2.5 என்பது PageIndex ஐ அடிப்படையாகக் கொண்ட நிதி ஆவண கேள்வி பதில் அமைப்பு ஆகும். FinanceBench (நிதி ஆவண QA தரநிலை சோதனை) இல் 98.7% துல்லியத்தை எட்டியது, இது Perplexity (45%) மற்றும் GPT-4o (31%) ஐ விட அதிகமாகும்.

6. பொருந்தக்கூடிய காட்சிகள்

பொருத்தம்: தெளிவான படிநிலை அமைப்பு கொண்ட நீண்ட ஆவணங்கள் (நிதி அறிக்கைகள், ஒழுங்குமுறைகள், பாடப்புத்தகங்கள், கையேடுகள்), பல்லாயிரக்கணக்கான பக்கங்கள் முதல் நூற்றுக்கணக்கான பக்கங்கள் வரை

பொருத்தமற்றது: கட்டமைப்பற்ற உள்ளடக்கம் கொண்ட ஆவணங்கள், OCR செய்யப்படாத ஸ்கேன் செய்யப்பட்ட ஆவணங்கள், அட்டவணைகள்/வரைபடங்களை அடிப்படையாகக் கொண்ட ஆவணங்கள், மில்லி விநாடி நிகழ்நேர பதில்கள் தேவைப்படும் காட்சிகள்

7. சுருக்கம்

PageIndex இன் முக்கிய பங்களிப்பு என்னவென்றால், ஒரு நடைமுறை திசையன் அல்லாத RAG முன்னுதாரணத்தை முன்வைக்கிறது: ஆவணத்தின் இயற்கையான கட்டமைப்பைப் பயன்படுத்தி ஒரு மர அட்டவணையை உருவாக்குதல், திசையன் ஒற்றுமை தேடலுக்கு பதிலாக LLM அனுமானத்தைப் பயன்படுத்துதல். இந்த தீர்வு ஒரு தெளிவான படிநிலை அமைப்பு கொண்ட தொழில்முறை நீண்ட ஆவணக் காட்சிகளில் சிறப்பாக செயல்படுகிறது, மேலும் விளக்கமளிக்கும் தன்மை மற்றும் தணிக்கை செய்யும் திறனும் பாரம்பரிய தீர்வுகளை விட கணிசமாக சிறந்தவை.

Published in Technology

You Might Also Like

如何使用云计算技术:构建您的第一个云基础架构完整指南Technology

如何使用云计算技术:构建您的第一个云基础架构完整指南

[[HTMLPLACEHOLDER0]] [[HTMLPLACEHOLDER1]] [[HTMLPLACEHOLDER2]] [[HTMLPLACEHOLDER3]] [[HTMLPLACEHOLDER4]] [[HTMLPLACEHOLD...

எச்சரிக்கை! Claude Code-இன் தந்தை நேரடியாக கூறுகிறார்: 1 மாதத்திற்கு பிறகு Plan Mode-ஐ பயன்படுத்த வேண்டாம், மென்பொருள் பொறியாளர் பட்டம் மறைந்து விடும்Technology

எச்சரிக்கை! Claude Code-இன் தந்தை நேரடியாக கூறுகிறார்: 1 மாதத்திற்கு பிறகு Plan Mode-ஐ பயன்படுத்த வேண்டாம், மென்பொருள் பொறியாளர் பட்டம் மறைந்து விடும்

எச்சரிக்கை! Claude Code-இன் தந்தை நேரடியாக கூறுகிறார்: 1 மாதத்திற்கு பிறகு Plan Mode-ஐ பயன்படுத்த வேண்டாம், மென்பொருள் ப...

2026年 Top 10 深度学习资源推荐Technology

2026年 Top 10 深度学习资源推荐

2026年 Top 10 深度学习资源推荐 随着深度学习在各个领域的迅速发展,越来越多的学习资源和工具涌现出来。本文将为您推荐2026年最值得关注的十个深度学习资源,帮助您在这一领域中快速成长。 1. Coursera Deep Learn...

2026年 Top 10 AI 代理:核心卖点解析Technology

2026年 Top 10 AI 代理:核心卖点解析

2026年 Top 10 AI 代理:核心卖点解析 引言 人工智能的 விரைவான வளர்ச்சியுடன், AI 代理 (AI Agents) தொழில்நுட்ப துறையில் ஒரு முக்கியமான தலைப்பாக...

2026ஆம் ஆண்டு Top 10 AI கருவிகள் பரிந்துரை: செயற்கை நுண்ணறிவின் உண்மையான திறனை விடுவிக்கவும்Technology

2026ஆம் ஆண்டு Top 10 AI கருவிகள் பரிந்துரை: செயற்கை நுண்ணறிவின் உண்மையான திறனை விடுவிக்கவும்

2026ஆம் ஆண்டு Top 10 AI கருவிகள் பரிந்துரை: செயற்கை நுண்ணறிவின் உண்மையான திறனை விடுவிக்கவும் தொழில்நுட்பம் வேகமாக வளர்ந்...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 在快速发展的云计算领域,Amazon Web Services (AWS) 一直是领军者,提供丰富的服务和工具,帮助开发者、企业和技术专家在云上有效工作。以下是2026年值得关注的十大AWS工...