PageIndex ஆழமான பகுப்பாய்வு: திசையன் அல்லாத அனுமான வகை RAG, AI ஐ மனித நிபுணர்களைப் போல் ஆவணங்களைப் படிக்க வைக்கிறது
PageIndex என்பது Vectify AI குழுவால் திறந்த மூலமாக வெளியிடப்பட்ட திசையன் அல்லாத, அனுமான வகை RAG கட்டமைப்பு ஆகும் (GitHub 14.8k+ நட்சத்திரங்கள்). இது நீண்ட ஆவணங்களை ஒரு படிநிலை மர அட்டவணைக்கு மாற்றுகிறது, மரத்தில் அனுமான மீட்டெடுப்புக்கு LLM ஐப் பயன்படுத்துகிறது, மேலும் FinanceBench நிதி ஆவண கேள்வி பதில் தரநிலைகளில் 98.7% துல்லியத்தை அடைகிறது.

1. பின்னணி: பாரம்பரிய RAG இன் ஐந்து வலி புள்ளிகள்
RAG பெரிய மாதிரி பயன்பாடுகளுக்கான உண்மையான தரநிலையாக மாறியுள்ளது. முக்கிய தீர்வு ஆவணத்தை நிலையான நீளமுள்ள பகுதிகளாக வெட்டி, உட்பொதிக்கும் மாதிரியின் மூலம் திசையன்களாக மாற்றி, திசையன் தரவுத்தளத்தில் சேமிக்கிறது; வினவலுக்கு, பயனர் கேள்விக்கு அதே உட்பொதிப்பு செய்யப்படுகிறது, பின்னர் திசையன் ஒற்றுமை தேடல் மூலம் சிறந்த-K முடிவுகள் திரும்ப அழைக்கப்படுகின்றன, மேலும் LLM இன் உள்ளீட்டு சூழலாக இணைக்கப்படுகின்றன.
இந்த செயல்முறை குறுகிய உரை மற்றும் பொதுவான காட்சிகளில் பயனுள்ளதாக இருக்கும், ஆனால் தொழில்முறை நீண்ட ஆவணங்கள் (நிதி அறிக்கைகள், சட்டங்கள் மற்றும் ஒழுங்குமுறைகள், தொழில்நுட்ப கையேடுகள் போன்றவை) காட்சிகளில், ஐந்து அடிப்படை சிக்கல்கள் வெளிப்படுகின்றன:
1) ஒற்றுமை ≠ தொடர்பு. திசையன் மீட்டெடுப்பு "சொற்பொருள் ரீதியாக மிகவும் ஒத்த உரைத் தொகுதி = மிகவும் தொடர்புடைய பதில் ஆதாரம்" என்று கருதுகிறது, ஆனால் தொழில்முறை ஆவணங்களில், ஏராளமான பத்திகள் தோராயமான சொற்பொருளைப் பகிர்ந்து கொள்கின்றன, ஆனால் முக்கிய விவரங்களில் மிகப்பெரிய வேறுபாடுகள் உள்ளன.
2) கடினமான பிளவு சூழல் ஒருமைப்பாட்டை அழிக்கிறது. 512 அல்லது 1024 டோக்கன்களின் நிலையான சாளரத்தின் மூலம் ஆவணத்தை வெட்டுவது, வாக்கியங்கள், பத்திகள் அல்லது முழு தர்க்கரீதியான பிரிவையும் துண்டிக்கிறது, இது முக்கியமான சூழல் இழப்புக்கு வழிவகுக்கிறது.
3) கேள்வி நோக்கம் மற்றும் அறிவு இடைவெளி தவறாக அமைதல். பயனரின் கேள்வி "உள்ளடக்கம்" என்பதை விட "நோக்கத்தை" வெளிப்படுத்துகிறது, மேலும் query embedding மற்றும் document embedding வெவ்வேறு சொற்பொருள் இடைவெளிகளில் உள்ளன.
4) ஆவணத்தில் உள்ள மேற்கோள்களைக் கையாள முடியவில்லை. தொழில்முறை ஆவணங்களில் "விவரங்களுக்கு இணைப்பு G ஐப் பார்க்கவும்", "அட்டவணை 5.3 ஐப் பார்க்கவும்" போன்ற மேற்கோள்கள் பொதுவானவை, இந்த மேற்கோள்களுக்கும் மேற்கோள் காட்டப்பட்ட உள்ளடக்கத்திற்கும் இடையில் சொற்பொருள் ஒற்றுமை இல்லை, மேலும் திசையன் மீட்டெடுப்பு பொருந்த முடியாது.
5) சுயாதீனமான வினவல், உரையாடல் வரலாற்றைப் பயன்படுத்த முடியாது. ஒவ்வொரு மீட்டெடுப்பும் வினவலை ஒரு சுயாதீனமான கோரிக்கையாகக் கருதுகிறது, மேலும் முந்தைய உரையாடல் சூழலுடன் படிப்படியான மீட்டெடுப்பை இணைக்க முடியாது.
2. PageIndex ஒட்டுமொத்த கட்டமைப்பு
PageIndex என்பது ஒரு திசையன் அல்லாத (Vectorless), அனுமான அடிப்படையிலான (Reasoning-based) RAG கட்டமைப்பு. இதன் முக்கிய யோசனை: திசையன் இடத்தில் தோராயமான பொருத்தத்தை மாதிரி செய்ய அனுமதிப்பதற்குப் பதிலாக, ஆவணத்தின் கட்டமைக்கப்பட்ட பிரதிநிதித்துவத்தில் மாதிரியை அனுமானிக்க அனுமதிக்கவும் - "எங்கு பார்க்க வேண்டும்" என்பதைத் தீர்மானிக்கவும், "என்ன ஒத்ததாகத் தெரிகிறது" என்பதை மட்டும் அல்ல.
PageIndex ஒரு நீண்ட ஆவணத்தை படிக்கும் மனித நிபுணரின் வழியை உருவகப்படுத்துகிறது: முதலில் அட்டவணையைப் பார்க்கவும், கேள்வியின் அடிப்படையில் தொடர்புடைய அத்தியாயங்களைத் தீர்மானிக்கவும், இலக்கு உள்ளடக்கத்தைக் கண்டுபிடிக்கும் வரை படிப்படியாக ஆழமாகச் செல்லவும். இந்த செயல்முறை இரண்டு படிகள் மூலம் அடையப்படுகிறது:
- மர அமைப்பு அட்டவணையை உருவாக்குதல்: PDF/Markdown ஆவணத்தை ஒரு படிநிலை JSON மரமாக மாற்றவும், இது "LLM க்கு உகந்த அட்டவணை" போன்றது
- அனுமான மரத் தேடல்: LLM கேள்வியின் அடிப்படையில் மரத்தில் அனுமான வழிசெலுத்தலைச் செய்கிறது, தொடர்புடைய முனைகளைத் தீர்மானிக்கிறது, உள்ளடக்கத்தைப் பிரித்தெடுத்து பதில்களை உருவாக்குகிறது

3. முக்கிய தொகுதி பிரித்தல்
3.1 PDF செயலாக்க குழாய்
PageIndex இன் PDF செயலாக்க குழாய் tree_parser() செயல்பாட்டால் ஏற்பாடு செய்யப்பட்டுள்ளது, மேலும் முக்கிய செயல்முறைகளில்: அடைவு கண்டறிதல் (மூன்று முறை கிளைகள்), முன்னுரையை நிரப்புதல், தட்டையான பட்டியலை படிநிலை மரமாக மாற்றுதல், பெரிய முனைகளை மீண்டும் மீண்டும் பிரித்தல், முனைகளை செறிவூட்டுதல், JSON மர அமைப்பு வெளியீடு ஆகியவை அடங்கும்.
மூன்று செயலாக்க முறைகள்:
- process_toc_with_page_numbers (அடைவு + பக்க எண்கள்): LLM ஐப் பயன்படுத்தி அசல் அட்டவணையை கட்டமைக்கப்பட்ட JSON ஆக மாற்றவும், தர்க்கரீதியான பக்க எண்களை இயற்பியல் பக்க எண்களுக்கு மேப் செய்யவும்
- process_no_toc (அடைவு இல்லை): LLM மூலம் முக்கிய உள்ளடக்கத்திலிருந்து நேரடியாக படிநிலை கட்டமைப்பை அனுமானிக்கவும்
- process_toc_no_page_numbers (அடைவு உள்ளது ஆனால் பக்க எண்கள் இல்லை): கட்டமைப்பைப் பிரித்தெடுத்து, பின்னர் இயற்பியல் பக்க எண்களை அனுமானித்து நிரப்பவும்
3.2 மர அமைப்பு தரவு மாதிரி
மரத்தில் உள்ள ஒவ்வொரு முனையிலும்: தலைப்பு, node_id, start_index, end_index, summary, prefix_summary, text, nodes (குழந்தை முனை வரிசை) போன்ற புலங்கள் உள்ளன.
3.3 அனுமான மீட்டெடுப்பு பொறிமுறை
மீட்டெடுப்பு கட்டம் எந்த திசையன் கணக்கீட்டையும் நம்பவில்லை. LLM பயனர் கேள்வி மற்றும் ஆவண மர கட்டமைப்பைப் பெறுகிறது, மேலும் முனை தலைப்பு மற்றும் சுருக்கத்தின் அடிப்படையில் அனுமானத்தை மேற்கொள்கிறது, அதன் "சிந்தனை செயல்முறை" மற்றும் தொடர்புடைய node_id பட்டியலை வெளியிடுகிறது. பின்னர் அமைப்பு node_id இன் படி node_map இலிருந்து தொடர்புடைய முனையின் முழு உரையை பிரித்தெடுத்து, சூழலாக இணைத்து LLM க்கு இறுதி பதில்களை உருவாக்க கொடுக்கிறது.

4. முக்கிய வடிவமைப்பு சிறப்பம்சங்கள்
- திசையன் அல்லாத கட்டமைப்பு: உட்பொதிக்கும் மாதிரி மற்றும் திசையன் தரவுத்தளம் தேவையில்லை, உள்கட்டமைப்பு செலவுகளைக் குறைக்கிறது மற்றும் வரிசைப்படுத்தலை எளிதாக்குகிறது
- ஆவணத்தின் இயற்கையான கட்டமைப்பைத் தக்கவைத்தல்: ஆவணத்தின் உள்ளார்ந்த அத்தியாயங்கள்/பிரிவுகள்/துணை அத்தியாயங்களின்படி உள்ளடக்கத்தை ஒழுங்கமைக்கவும், chunk முழுவதும் சூழல் இழப்பைத் தவிர்க்கவும்
- மீட்டெடுப்பின் விளக்கமளிக்கும் தன்மை: ஒவ்வொரு மீட்டெடுப்பும் முழு அனுமான சங்கிலியையும் வழங்குகிறது, இது அதிக இணக்கத் தேவைகள் உள்ள காட்சிகளில் ஒரு தெளிவான நன்மையைக் கொண்டுள்ளது
5. மதிப்பீட்டு முடிவுகள்
Mafin 2.5 என்பது PageIndex ஐ அடிப்படையாகக் கொண்ட நிதி ஆவண கேள்வி பதில் அமைப்பு ஆகும். FinanceBench (நிதி ஆவண QA தரநிலை சோதனை) இல் 98.7% துல்லியத்தை எட்டியது, இது Perplexity (45%) மற்றும் GPT-4o (31%) ஐ விட அதிகமாகும்.

6. பொருந்தக்கூடிய காட்சிகள்
பொருத்தம்: தெளிவான படிநிலை அமைப்பு கொண்ட நீண்ட ஆவணங்கள் (நிதி அறிக்கைகள், ஒழுங்குமுறைகள், பாடப்புத்தகங்கள், கையேடுகள்), பல்லாயிரக்கணக்கான பக்கங்கள் முதல் நூற்றுக்கணக்கான பக்கங்கள் வரை
பொருத்தமற்றது: கட்டமைப்பற்ற உள்ளடக்கம் கொண்ட ஆவணங்கள், OCR செய்யப்படாத ஸ்கேன் செய்யப்பட்ட ஆவணங்கள், அட்டவணைகள்/வரைபடங்களை அடிப்படையாகக் கொண்ட ஆவணங்கள், மில்லி விநாடி நிகழ்நேர பதில்கள் தேவைப்படும் காட்சிகள்
7. சுருக்கம்
PageIndex இன் முக்கிய பங்களிப்பு என்னவென்றால், ஒரு நடைமுறை திசையன் அல்லாத RAG முன்னுதாரணத்தை முன்வைக்கிறது: ஆவணத்தின் இயற்கையான கட்டமைப்பைப் பயன்படுத்தி ஒரு மர அட்டவணையை உருவாக்குதல், திசையன் ஒற்றுமை தேடலுக்கு பதிலாக LLM அனுமானத்தைப் பயன்படுத்துதல். இந்த தீர்வு ஒரு தெளிவான படிநிலை அமைப்பு கொண்ட தொழில்முறை நீண்ட ஆவணக் காட்சிகளில் சிறப்பாக செயல்படுகிறது, மேலும் விளக்கமளிக்கும் தன்மை மற்றும் தணிக்கை செய்யும் திறனும் பாரம்பரிய தீர்வுகளை விட கணிசமாக சிறந்தவை.





