PageIndex का गहन विश्लेषण: बिना वेक्टर के अनुमान-आधारित RAG, AI को मानव विशेषज्ञ की तरह दस्तावेज़ पढ़ने में सक्षम बनाता है
PageIndex Vectify AI टीम द्वारा ओपन-सोर्स किया गया एक वेक्टर-मुक्त, अनुमान-आधारित RAG फ्रेमवर्क है (GitHub 14.8k+ stars)। यह लंबे दस्तावेज़ों को श्रेणीबद्ध ट्री इंडेक्स में परिवर्तित करता है, LLM का उपयोग करके ट्री पर अनुमान-आधारित पुनर्प्राप्ति करता है, और FinanceBench वित्तीय दस्तावेज़ प्रश्न उत्तर बेंचमार्क पर 98.7% सटीकता प्राप्त करता है।

1. पृष्ठभूमि: पारंपरिक RAG की पाँच कमज़ोरियाँ
RAG बड़े मॉडल अनुप्रयोगों के लिए एक वास्तविक मानक बन गया है। मुख्यधारा के समाधान पूर्व-प्रसंस्करण चरण में दस्तावेज़ों को निश्चित लंबाई के चंक्स में विभाजित करते हैं, उन्हें एम्बेडिंग मॉडल के माध्यम से वेक्टर में परिवर्तित करते हैं, और वेक्टर डेटाबेस में संग्रहीत करते हैं; क्वेरी करते समय, उपयोगकर्ता के प्रश्नों का समान एम्बेडिंग किया जाता है, और फिर वेक्टर समानता खोज के माध्यम से शीर्ष-K परिणाम वापस बुलाए जाते हैं, जिन्हें LLM के इनपुट संदर्भ के रूप में जोड़ा जाता है।
यह प्रक्रिया छोटे पाठ और सामान्य परिदृश्यों में प्रभावी है, लेकिन पेशेवर लंबे दस्तावेज़ों (वित्तीय रिपोर्ट, कानून और विनियम, तकनीकी मैनुअल आदि) के परिदृश्यों में, पाँच मूलभूत समस्याएँ सामने आती हैं:
1) समानता ≠ प्रासंगिकता। वेक्टर पुनर्प्राप्ति यह मानती है कि "सबसे अधिक अर्थपूर्ण रूप से समान पाठ ब्लॉक = सबसे प्रासंगिक उत्तर स्रोत", लेकिन पेशेवर दस्तावेज़ों में, बड़ी संख्या में पैराग्राफ लगभग समान अर्थ साझा करते हैं लेकिन महत्वपूर्ण विवरणों में बहुत भिन्न होते हैं।
2) हार्ड चंकिंग संदर्भ की अखंडता को नष्ट कर देता है। 512 या 1024 टोकन की एक निश्चित विंडो के अनुसार दस्तावेज़ों को विभाजित करने से वाक्य, पैराग्राफ और यहां तक कि पूरे तार्किक खंड कट जाते हैं, जिससे महत्वपूर्ण संदर्भ खो जाता है।
3) क्वेरी इरादे और ज्ञान स्थान का गलत संरेखण। उपयोगकर्ता की क्वेरी "इरादे" को व्यक्त करती है न कि "सामग्री" को, और क्वेरी एम्बेडिंग और दस्तावेज़ एम्बेडिंग अलग-अलग अर्थपूर्ण स्थानों में स्थित हैं।
4) दस्तावेज़ में उद्धरणों को संसाधित करने में असमर्थता। पेशेवर दस्तावेज़ों में अक्सर "विवरण के लिए परिशिष्ट G देखें" "तालिका 5.3 देखें" जैसे उद्धरण होते हैं, इन उद्धरणों और उद्धृत सामग्री के बीच कोई अर्थपूर्ण समानता नहीं होती है, और वेक्टर पुनर्प्राप्ति मिलान करने में असमर्थ है।
5) स्वतंत्र क्वेरी, वार्तालाप इतिहास का उपयोग करने में असमर्थता। प्रत्येक पुनर्प्राप्ति क्वेरी को एक स्वतंत्र अनुरोध के रूप में मानती है, और पूर्ववर्ती वार्तालाप संदर्भ के साथ वृद्धिशील पुनर्प्राप्ति करने में असमर्थ है।
2. PageIndex का समग्र आर्किटेक्चर
PageIndex एक वेक्टर-मुक्त (Vectorless), अनुमान-आधारित (Reasoning-based) RAG फ्रेमवर्क है। इसका मूल विचार यह है: मॉडल को वेक्टर स्पेस में अनुमानित मिलान करने देने के बजाय, मॉडल को दस्तावेज़ के संरचित प्रतिनिधित्व पर अनुमान लगाने दें - यह तय करें कि "कहाँ देखना है", न कि केवल "क्या समान दिखता है"।
PageIndex एक मानव विशेषज्ञ द्वारा लंबे दस्तावेज़ों को पढ़ने के तरीके का अनुकरण करता है: पहले विषय-सूची को ब्राउज़ करें, प्रश्न के अनुसार प्रासंगिक अध्यायों का न्याय करें, और लक्ष्य सामग्री मिलने तक धीरे-धीरे गहराई तक जाएँ। यह प्रक्रिया दो चरणों के माध्यम से प्राप्त की जाती है:
- ट्री स्ट्रक्चर इंडेक्स का निर्माण : PDF/Markdown दस्तावेज़ों को श्रेणीबद्ध JSON ट्री में परिवर्तित करें, जो "LLM के लिए अनुकूलित विषय-सूची" के समान है
- अनुमान-आधारित ट्री खोज : LLM प्रश्नों के अनुसार ट्री पर अनुमानित नेविगेशन करता है, प्रासंगिक नोड्स का पता लगाता है, सामग्री निकालता है और उत्तर उत्पन्न करता है

3. मुख्य मॉड्यूल का विघटन
3.1 PDF प्रसंस्करण पाइपलाइन
PageIndex की PDF प्रसंस्करण पाइपलाइन को tree_parser() फ़ंक्शन द्वारा व्यवस्थित किया जाता है, और मुख्य प्रक्रिया में शामिल हैं: विषय-सूची का पता लगाना (तीन मोड शाखाएँ), प्रस्तावना को पूरक करना, सपाट सूची को श्रेणीबद्ध ट्री में बदलना, बड़े नोड्स को पुनरावर्ती रूप से उपविभाजित करना, नोड्स को समृद्ध करना, JSON ट्री संरचना आउटपुट।
तीन प्रसंस्करण मोड:
- process_toc_with_page_numbers (विषय-सूची + पृष्ठ संख्याएँ): LLM का उपयोग करके मूल विषय-सूची को संरचित JSON में परिवर्तित करें, तार्किक पृष्ठ संख्याओं को भौतिक पृष्ठ संख्याओं पर मैप करें
- process_no_toc (कोई विषय-सूची नहीं): LLM द्वारा मुख्य पाठ सामग्री से सीधे श्रेणीबद्ध संरचना का अनुमान लगाया जाता है
- process_toc_no_page_numbers (विषय-सूची लेकिन कोई पृष्ठ संख्याएँ नहीं): संरचना निकालने के बाद भौतिक पृष्ठ संख्याओं को पूरक करने के लिए अनुमान लगाया जाता है
3.2 ट्री स्ट्रक्चर डेटा मॉडल
ट्री में प्रत्येक नोड में शामिल हैं: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (चाइल्ड नोड एरे) जैसे फ़ील्ड।
3.3 अनुमान-आधारित पुनर्प्राप्ति तंत्र
पुनर्प्राप्ति चरण किसी भी वेक्टर गणना पर निर्भर नहीं करता है। LLM उपयोगकर्ता के प्रश्नों और दस्तावेज़ ट्री संरचना को प्राप्त करता है, नोड शीर्षक और सारांश के आधार पर अनुमान लगाता है, और अपनी "विचार प्रक्रिया" और प्रासंगिक node_id सूची आउटपुट करता है। सिस्टम तब node_id के अनुसार node_map से संबंधित नोड के पूर्ण पाठ को निकालता है, और इसे संदर्भ के रूप में जोड़कर LLM को अंतिम उत्तर उत्पन्न करने के लिए देता है।

4. मुख्य डिज़ाइन हाइलाइट्स
- वेक्टर-मुक्त आर्किटेक्चर: एम्बेडिंग मॉडल और वेक्टर डेटाबेस की कोई आवश्यकता नहीं है, बुनियादी ढाँचे की लागत कम करता है, परिनियोजन को सरल बनाता है
- दस्तावेज़ की प्राकृतिक संरचना को बनाए रखें: दस्तावेज़ के अंतर्निहित अध्याय/अनुभाग/उप-अध्याय द्वारा सामग्री को व्यवस्थित करें, चंक में संदर्भ के नुकसान से बचें
- पुनर्प्राप्ति की व्याख्यात्मकता: प्रत्येक पुनर्प्राप्ति एक पूर्ण अनुमान श्रृंखला लौटाती है, जो उच्च अनुपालन आवश्यकताओं वाले परिदृश्यों में एक स्पष्ट लाभ है
5. मूल्यांकन परिणाम
Mafin 2.5 PageIndex पर आधारित एक वित्तीय दस्तावेज़ प्रश्न उत्तर प्रणाली है। FinanceBench (वित्तीय दस्तावेज़ QA बेंचमार्क परीक्षण) पर इसका प्रदर्शन 98.7% सटीकता तक पहुँच गया, जो Perplexity (45%) और GPT-4o (31%) से कहीं अधिक है।

6. उपयुक्त परिदृश्य
उपयुक्त: स्पष्ट श्रेणीबद्ध संरचना वाले लंबे दस्तावेज़ (वित्तीय रिपोर्ट, कानून, पाठ्यपुस्तकें, मैनुअल), पृष्ठों की संख्या दसियों से सैकड़ों तक
अनुपयुक्त: असंरचित सामग्री वाले दस्तावेज़, बिना OCR के स्कैन किए गए दस्तावेज़, तालिका/चार्ट-आधारित दस्तावेज़, मिलीसेकंड-स्तरीय रीयल-टाइम प्रतिक्रिया की आवश्यकता वाले परिदृश्य
7. निष्कर्ष
PageIndex का मुख्य योगदान एक व्यावहारिक वेक्टर-मुक्त RAG प्रतिमान प्रस्तावित करना है: दस्तावेज़ की प्राकृतिक संरचना का उपयोग करके एक ट्री इंडेक्स का निर्माण करना, और वेक्टर समानता खोज को LLM अनुमान से बदलना। यह समाधान स्पष्ट श्रेणीबद्ध संरचना वाले पेशेवर लंबे दस्तावेज़ परिदृश्यों में उत्कृष्ट प्रदर्शन करता है, और व्याख्यात्मकता और ऑडिट क्षमता भी पारंपरिक समाधानों की तुलना में काफी बेहतर है।





