PageIndex का गहन विश्लेषण: बिना वेक्टर के अनुमान-आधारित RAG, AI को मानव विशेषज्ञ की तरह दस्तावेज़ पढ़ने में सक्षम बनाता है

PageIndex Vectify AI टीम द्वारा ओपन-सोर्स किया गया एक वेक्टर-मुक्त, अनुमान-आधारित RAG फ्रेमवर्क है (GitHub 14.8k+ stars)। यह लंबे दस्तावेज़ों को श्रेणीबद्ध ट्री इंडेक्स में परिवर्तित करता है, LLM का उपयोग करके ट्री पर अनुमान-आधारित पुनर्प्राप्ति करता है, और FinanceBench वित्तीय दस्तावेज़ प्रश्न उत्तर बेंचमार्क पर 98.7% सटीकता प्राप्त करता है।

1. पृष्ठभूमि: पारंपरिक RAG की पाँच कमज़ोरियाँ

RAG बड़े मॉडल अनुप्रयोगों के लिए एक वास्तविक मानक बन गया है। मुख्यधारा के समाधान पूर्व-प्रसंस्करण चरण में दस्तावेज़ों को निश्चित लंबाई के चंक्स में विभाजित करते हैं, उन्हें एम्बेडिंग मॉडल के माध्यम से वेक्टर में परिवर्तित करते हैं, और वेक्टर डेटाबेस में संग्रहीत करते हैं; क्वेरी करते समय, उपयोगकर्ता के प्रश्नों का समान एम्बेडिंग किया जाता है, और फिर वेक्टर समानता खोज के माध्यम से शीर्ष-K परिणाम वापस बुलाए जाते हैं, जिन्हें LLM के इनपुट संदर्भ के रूप में जोड़ा जाता है।

यह प्रक्रिया छोटे पाठ और सामान्य परिदृश्यों में प्रभावी है, लेकिन पेशेवर लंबे दस्तावेज़ों (वित्तीय रिपोर्ट, कानून और विनियम, तकनीकी मैनुअल आदि) के परिदृश्यों में, पाँच मूलभूत समस्याएँ सामने आती हैं:

1) समानता ≠ प्रासंगिकता। वेक्टर पुनर्प्राप्ति यह मानती है कि "सबसे अधिक अर्थपूर्ण रूप से समान पाठ ब्लॉक = सबसे प्रासंगिक उत्तर स्रोत", लेकिन पेशेवर दस्तावेज़ों में, बड़ी संख्या में पैराग्राफ लगभग समान अर्थ साझा करते हैं लेकिन महत्वपूर्ण विवरणों में बहुत भिन्न होते हैं।

2) हार्ड चंकिंग संदर्भ की अखंडता को नष्ट कर देता है। 512 या 1024 टोकन की एक निश्चित विंडो के अनुसार दस्तावेज़ों को विभाजित करने से वाक्य, पैराग्राफ और यहां तक कि पूरे तार्किक खंड कट जाते हैं, जिससे महत्वपूर्ण संदर्भ खो जाता है।

3) क्वेरी इरादे और ज्ञान स्थान का गलत संरेखण। उपयोगकर्ता की क्वेरी "इरादे" को व्यक्त करती है न कि "सामग्री" को, और क्वेरी एम्बेडिंग और दस्तावेज़ एम्बेडिंग अलग-अलग अर्थपूर्ण स्थानों में स्थित हैं।

4) दस्तावेज़ में उद्धरणों को संसाधित करने में असमर्थता। पेशेवर दस्तावेज़ों में अक्सर "विवरण के लिए परिशिष्ट G देखें" "तालिका 5.3 देखें" जैसे उद्धरण होते हैं, इन उद्धरणों और उद्धृत सामग्री के बीच कोई अर्थपूर्ण समानता नहीं होती है, और वेक्टर पुनर्प्राप्ति मिलान करने में असमर्थ है।

5) स्वतंत्र क्वेरी, वार्तालाप इतिहास का उपयोग करने में असमर्थता। प्रत्येक पुनर्प्राप्ति क्वेरी को एक स्वतंत्र अनुरोध के रूप में मानती है, और पूर्ववर्ती वार्तालाप संदर्भ के साथ वृद्धिशील पुनर्प्राप्ति करने में असमर्थ है।

2. PageIndex का समग्र आर्किटेक्चर

PageIndex एक वेक्टर-मुक्त (Vectorless), अनुमान-आधारित (Reasoning-based) RAG फ्रेमवर्क है। इसका मूल विचार यह है: मॉडल को वेक्टर स्पेस में अनुमानित मिलान करने देने के बजाय, मॉडल को दस्तावेज़ के संरचित प्रतिनिधित्व पर अनुमान लगाने दें - यह तय करें कि "कहाँ देखना है", न कि केवल "क्या समान दिखता है"।

PageIndex एक मानव विशेषज्ञ द्वारा लंबे दस्तावेज़ों को पढ़ने के तरीके का अनुकरण करता है: पहले विषय-सूची को ब्राउज़ करें, प्रश्न के अनुसार प्रासंगिक अध्यायों का न्याय करें, और लक्ष्य सामग्री मिलने तक धीरे-धीरे गहराई तक जाएँ। यह प्रक्रिया दो चरणों के माध्यम से प्राप्त की जाती है:

ट्री स्ट्रक्चर इंडेक्स का निर्माण : PDF/Markdown दस्तावेज़ों को श्रेणीबद्ध JSON ट्री में परिवर्तित करें, जो "LLM के लिए अनुकूलित विषय-सूची" के समान है
अनुमान-आधारित ट्री खोज : LLM प्रश्नों के अनुसार ट्री पर अनुमानित नेविगेशन करता है, प्रासंगिक नोड्स का पता लगाता है, सामग्री निकालता है और उत्तर उत्पन्न करता है

3. मुख्य मॉड्यूल का विघटन

3.1 PDF प्रसंस्करण पाइपलाइन

PageIndex की PDF प्रसंस्करण पाइपलाइन को tree_parser() फ़ंक्शन द्वारा व्यवस्थित किया जाता है, और मुख्य प्रक्रिया में शामिल हैं: विषय-सूची का पता लगाना (तीन मोड शाखाएँ), प्रस्तावना को पूरक करना, सपाट सूची को श्रेणीबद्ध ट्री में बदलना, बड़े नोड्स को पुनरावर्ती रूप से उपविभाजित करना, नोड्स को समृद्ध करना, JSON ट्री संरचना आउटपुट।

तीन प्रसंस्करण मोड:

process_toc_with_page_numbers (विषय-सूची + पृष्ठ संख्याएँ): LLM का उपयोग करके मूल विषय-सूची को संरचित JSON में परिवर्तित करें, तार्किक पृष्ठ संख्याओं को भौतिक पृष्ठ संख्याओं पर मैप करें
process_no_toc (कोई विषय-सूची नहीं): LLM द्वारा मुख्य पाठ सामग्री से सीधे श्रेणीबद्ध संरचना का अनुमान लगाया जाता है
process_toc_no_page_numbers (विषय-सूची लेकिन कोई पृष्ठ संख्याएँ नहीं): संरचना निकालने के बाद भौतिक पृष्ठ संख्याओं को पूरक करने के लिए अनुमान लगाया जाता है

3.2 ट्री स्ट्रक्चर डेटा मॉडल

ट्री में प्रत्येक नोड में शामिल हैं: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (चाइल्ड नोड एरे) जैसे फ़ील्ड।

3.3 अनुमान-आधारित पुनर्प्राप्ति तंत्र

पुनर्प्राप्ति चरण किसी भी वेक्टर गणना पर निर्भर नहीं करता है। LLM उपयोगकर्ता के प्रश्नों और दस्तावेज़ ट्री संरचना को प्राप्त करता है, नोड शीर्षक और सारांश के आधार पर अनुमान लगाता है, और अपनी "विचार प्रक्रिया" और प्रासंगिक node_id सूची आउटपुट करता है। सिस्टम तब node_id के अनुसार node_map से संबंधित नोड के पूर्ण पाठ को निकालता है, और इसे संदर्भ के रूप में जोड़कर LLM को अंतिम उत्तर उत्पन्न करने के लिए देता है।

4. मुख्य डिज़ाइन हाइलाइट्स

वेक्टर-मुक्त आर्किटेक्चर: एम्बेडिंग मॉडल और वेक्टर डेटाबेस की कोई आवश्यकता नहीं है, बुनियादी ढाँचे की लागत कम करता है, परिनियोजन को सरल बनाता है
दस्तावेज़ की प्राकृतिक संरचना को बनाए रखें: दस्तावेज़ के अंतर्निहित अध्याय/अनुभाग/उप-अध्याय द्वारा सामग्री को व्यवस्थित करें, चंक में संदर्भ के नुकसान से बचें
पुनर्प्राप्ति की व्याख्यात्मकता: प्रत्येक पुनर्प्राप्ति एक पूर्ण अनुमान श्रृंखला लौटाती है, जो उच्च अनुपालन आवश्यकताओं वाले परिदृश्यों में एक स्पष्ट लाभ है

5. मूल्यांकन परिणाम

Mafin 2.5 PageIndex पर आधारित एक वित्तीय दस्तावेज़ प्रश्न उत्तर प्रणाली है। FinanceBench (वित्तीय दस्तावेज़ QA बेंचमार्क परीक्षण) पर इसका प्रदर्शन 98.7% सटीकता तक पहुँच गया, जो Perplexity (45%) और GPT-4o (31%) से कहीं अधिक है।

6. उपयुक्त परिदृश्य

उपयुक्त: स्पष्ट श्रेणीबद्ध संरचना वाले लंबे दस्तावेज़ (वित्तीय रिपोर्ट, कानून, पाठ्यपुस्तकें, मैनुअल), पृष्ठों की संख्या दसियों से सैकड़ों तक

अनुपयुक्त: असंरचित सामग्री वाले दस्तावेज़, बिना OCR के स्कैन किए गए दस्तावेज़, तालिका/चार्ट-आधारित दस्तावेज़, मिलीसेकंड-स्तरीय रीयल-टाइम प्रतिक्रिया की आवश्यकता वाले परिदृश्य

7. निष्कर्ष

PageIndex का मुख्य योगदान एक व्यावहारिक वेक्टर-मुक्त RAG प्रतिमान प्रस्तावित करना है: दस्तावेज़ की प्राकृतिक संरचना का उपयोग करके एक ट्री इंडेक्स का निर्माण करना, और वेक्टर समानता खोज को LLM अनुमान से बदलना। यह समाधान स्पष्ट श्रेणीबद्ध संरचना वाले पेशेवर लंबे दस्तावेज़ परिदृश्यों में उत्कृष्ट प्रदर्शन करता है, और व्याख्यात्मकता और ऑडिट क्षमता भी पारंपरिक समाधानों की तुलना में काफी बेहतर है।

PageIndex का गहन विश्लेषण: बिना वेक्टर के अनुमान-आधारित RAG, AI को मानव विशेषज्ञ की तरह दस्तावेज़ पढ़ने में सक्षम बनाता है

1. पृष्ठभूमि: पारंपरिक RAG की पाँच कमज़ोरियाँ

2. PageIndex का समग्र आर्किटेक्चर

3. मुख्य मॉड्यूल का विघटन

3.1 PDF प्रसंस्करण पाइपलाइन

3.2 ट्री स्ट्रक्चर डेटा मॉडल

3.3 अनुमान-आधारित पुनर्प्राप्ति तंत्र

4. मुख्य डिज़ाइन हाइलाइट्स

5. मूल्यांकन परिणाम

6. उपयुक्त परिदृश्य

7. निष्कर्ष

You Might Also Like

कैसे क्लाउड कंप्यूटिंग तकनीक का उपयोग करें: अपना पहला क्लाउड बुनियादी ढांचा बनाने के लिए पूर्ण गाइड

चेतावनी! Claude Code के पिता ने कहा: 1 महीने बाद Plan Mode का उपयोग नहीं होगा, सॉफ़्टवेयर इंजीनियर का शीर्षक गायब हो जाएगा

2026 में शीर्ष 10 गहन शिक्षण संसाधनों की सिफारिश

2026年 Top 10 AI 代理：核心卖点解析

2026 में शीर्ष 10 एआई उपकरणों की सिफारिश: कृत्रिम बुद्धिमत्ता की असली क्षमता को मुक्त करना

2026年 Top 10 AWS工具和资源推荐