PageIndex का गहन विश्लेषण: बिना वेक्टर के अनुमान-आधारित RAG, AI को मानव विशेषज्ञ की तरह दस्तावेज़ पढ़ने में सक्षम बनाता है

2/15/2026
6 min read

PageIndex Vectify AI टीम द्वारा ओपन-सोर्स किया गया एक वेक्टर-मुक्त, अनुमान-आधारित RAG फ्रेमवर्क है (GitHub 14.8k+ stars)। यह लंबे दस्तावेज़ों को श्रेणीबद्ध ट्री इंडेक्स में परिवर्तित करता है, LLM का उपयोग करके ट्री पर अनुमान-आधारित पुनर्प्राप्ति करता है, और FinanceBench वित्तीय दस्तावेज़ प्रश्न उत्तर बेंचमार्क पर 98.7% सटीकता प्राप्त करता है।

1. पृष्ठभूमि: पारंपरिक RAG की पाँच कमज़ोरियाँ

RAG बड़े मॉडल अनुप्रयोगों के लिए एक वास्तविक मानक बन गया है। मुख्यधारा के समाधान पूर्व-प्रसंस्करण चरण में दस्तावेज़ों को निश्चित लंबाई के चंक्स में विभाजित करते हैं, उन्हें एम्बेडिंग मॉडल के माध्यम से वेक्टर में परिवर्तित करते हैं, और वेक्टर डेटाबेस में संग्रहीत करते हैं; क्वेरी करते समय, उपयोगकर्ता के प्रश्नों का समान एम्बेडिंग किया जाता है, और फिर वेक्टर समानता खोज के माध्यम से शीर्ष-K परिणाम वापस बुलाए जाते हैं, जिन्हें LLM के इनपुट संदर्भ के रूप में जोड़ा जाता है।

यह प्रक्रिया छोटे पाठ और सामान्य परिदृश्यों में प्रभावी है, लेकिन पेशेवर लंबे दस्तावेज़ों (वित्तीय रिपोर्ट, कानून और विनियम, तकनीकी मैनुअल आदि) के परिदृश्यों में, पाँच मूलभूत समस्याएँ सामने आती हैं:

1) समानता ≠ प्रासंगिकता। वेक्टर पुनर्प्राप्ति यह मानती है कि "सबसे अधिक अर्थपूर्ण रूप से समान पाठ ब्लॉक = सबसे प्रासंगिक उत्तर स्रोत", लेकिन पेशेवर दस्तावेज़ों में, बड़ी संख्या में पैराग्राफ लगभग समान अर्थ साझा करते हैं लेकिन महत्वपूर्ण विवरणों में बहुत भिन्न होते हैं।

2) हार्ड चंकिंग संदर्भ की अखंडता को नष्ट कर देता है। 512 या 1024 टोकन की एक निश्चित विंडो के अनुसार दस्तावेज़ों को विभाजित करने से वाक्य, पैराग्राफ और यहां तक कि पूरे तार्किक खंड कट जाते हैं, जिससे महत्वपूर्ण संदर्भ खो जाता है।

3) क्वेरी इरादे और ज्ञान स्थान का गलत संरेखण। उपयोगकर्ता की क्वेरी "इरादे" को व्यक्त करती है न कि "सामग्री" को, और क्वेरी एम्बेडिंग और दस्तावेज़ एम्बेडिंग अलग-अलग अर्थपूर्ण स्थानों में स्थित हैं।

4) दस्तावेज़ में उद्धरणों को संसाधित करने में असमर्थता। पेशेवर दस्तावेज़ों में अक्सर "विवरण के लिए परिशिष्ट G देखें" "तालिका 5.3 देखें" जैसे उद्धरण होते हैं, इन उद्धरणों और उद्धृत सामग्री के बीच कोई अर्थपूर्ण समानता नहीं होती है, और वेक्टर पुनर्प्राप्ति मिलान करने में असमर्थ है।

5) स्वतंत्र क्वेरी, वार्तालाप इतिहास का उपयोग करने में असमर्थता। प्रत्येक पुनर्प्राप्ति क्वेरी को एक स्वतंत्र अनुरोध के रूप में मानती है, और पूर्ववर्ती वार्तालाप संदर्भ के साथ वृद्धिशील पुनर्प्राप्ति करने में असमर्थ है।

2. PageIndex का समग्र आर्किटेक्चर

PageIndex एक वेक्टर-मुक्त (Vectorless), अनुमान-आधारित (Reasoning-based) RAG फ्रेमवर्क है। इसका मूल विचार यह है: मॉडल को वेक्टर स्पेस में अनुमानित मिलान करने देने के बजाय, मॉडल को दस्तावेज़ के संरचित प्रतिनिधित्व पर अनुमान लगाने दें - यह तय करें कि "कहाँ देखना है", न कि केवल "क्या समान दिखता है"।

PageIndex एक मानव विशेषज्ञ द्वारा लंबे दस्तावेज़ों को पढ़ने के तरीके का अनुकरण करता है: पहले विषय-सूची को ब्राउज़ करें, प्रश्न के अनुसार प्रासंगिक अध्यायों का न्याय करें, और लक्ष्य सामग्री मिलने तक धीरे-धीरे गहराई तक जाएँ। यह प्रक्रिया दो चरणों के माध्यम से प्राप्त की जाती है:

  • ट्री स्ट्रक्चर इंडेक्स का निर्माण : PDF/Markdown दस्तावेज़ों को श्रेणीबद्ध JSON ट्री में परिवर्तित करें, जो "LLM के लिए अनुकूलित विषय-सूची" के समान है
  • अनुमान-आधारित ट्री खोज : LLM प्रश्नों के अनुसार ट्री पर अनुमानित नेविगेशन करता है, प्रासंगिक नोड्स का पता लगाता है, सामग्री निकालता है और उत्तर उत्पन्न करता है

3. मुख्य मॉड्यूल का विघटन

3.1 PDF प्रसंस्करण पाइपलाइन

PageIndex की PDF प्रसंस्करण पाइपलाइन को tree_parser() फ़ंक्शन द्वारा व्यवस्थित किया जाता है, और मुख्य प्रक्रिया में शामिल हैं: विषय-सूची का पता लगाना (तीन मोड शाखाएँ), प्रस्तावना को पूरक करना, सपाट सूची को श्रेणीबद्ध ट्री में बदलना, बड़े नोड्स को पुनरावर्ती रूप से उपविभाजित करना, नोड्स को समृद्ध करना, JSON ट्री संरचना आउटपुट।

तीन प्रसंस्करण मोड:

  • process_toc_with_page_numbers (विषय-सूची + पृष्ठ संख्याएँ): LLM का उपयोग करके मूल विषय-सूची को संरचित JSON में परिवर्तित करें, तार्किक पृष्ठ संख्याओं को भौतिक पृष्ठ संख्याओं पर मैप करें
  • process_no_toc (कोई विषय-सूची नहीं): LLM द्वारा मुख्य पाठ सामग्री से सीधे श्रेणीबद्ध संरचना का अनुमान लगाया जाता है
  • process_toc_no_page_numbers (विषय-सूची लेकिन कोई पृष्ठ संख्याएँ नहीं): संरचना निकालने के बाद भौतिक पृष्ठ संख्याओं को पूरक करने के लिए अनुमान लगाया जाता है

3.2 ट्री स्ट्रक्चर डेटा मॉडल

ट्री में प्रत्येक नोड में शामिल हैं: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (चाइल्ड नोड एरे) जैसे फ़ील्ड।

3.3 अनुमान-आधारित पुनर्प्राप्ति तंत्र

पुनर्प्राप्ति चरण किसी भी वेक्टर गणना पर निर्भर नहीं करता है। LLM उपयोगकर्ता के प्रश्नों और दस्तावेज़ ट्री संरचना को प्राप्त करता है, नोड शीर्षक और सारांश के आधार पर अनुमान लगाता है, और अपनी "विचार प्रक्रिया" और प्रासंगिक node_id सूची आउटपुट करता है। सिस्टम तब node_id के अनुसार node_map से संबंधित नोड के पूर्ण पाठ को निकालता है, और इसे संदर्भ के रूप में जोड़कर LLM को अंतिम उत्तर उत्पन्न करने के लिए देता है।

4. मुख्य डिज़ाइन हाइलाइट्स

  • वेक्टर-मुक्त आर्किटेक्चर: एम्बेडिंग मॉडल और वेक्टर डेटाबेस की कोई आवश्यकता नहीं है, बुनियादी ढाँचे की लागत कम करता है, परिनियोजन को सरल बनाता है
  • दस्तावेज़ की प्राकृतिक संरचना को बनाए रखें: दस्तावेज़ के अंतर्निहित अध्याय/अनुभाग/उप-अध्याय द्वारा सामग्री को व्यवस्थित करें, चंक में संदर्भ के नुकसान से बचें
  • पुनर्प्राप्ति की व्याख्यात्मकता: प्रत्येक पुनर्प्राप्ति एक पूर्ण अनुमान श्रृंखला लौटाती है, जो उच्च अनुपालन आवश्यकताओं वाले परिदृश्यों में एक स्पष्ट लाभ है

5. मूल्यांकन परिणाम

Mafin 2.5 PageIndex पर आधारित एक वित्तीय दस्तावेज़ प्रश्न उत्तर प्रणाली है। FinanceBench (वित्तीय दस्तावेज़ QA बेंचमार्क परीक्षण) पर इसका प्रदर्शन 98.7% सटीकता तक पहुँच गया, जो Perplexity (45%) और GPT-4o (31%) से कहीं अधिक है।

6. उपयुक्त परिदृश्य

उपयुक्त: स्पष्ट श्रेणीबद्ध संरचना वाले लंबे दस्तावेज़ (वित्तीय रिपोर्ट, कानून, पाठ्यपुस्तकें, मैनुअल), पृष्ठों की संख्या दसियों से सैकड़ों तक

अनुपयुक्त: असंरचित सामग्री वाले दस्तावेज़, बिना OCR के स्कैन किए गए दस्तावेज़, तालिका/चार्ट-आधारित दस्तावेज़, मिलीसेकंड-स्तरीय रीयल-टाइम प्रतिक्रिया की आवश्यकता वाले परिदृश्य

7. निष्कर्ष

PageIndex का मुख्य योगदान एक व्यावहारिक वेक्टर-मुक्त RAG प्रतिमान प्रस्तावित करना है: दस्तावेज़ की प्राकृतिक संरचना का उपयोग करके एक ट्री इंडेक्स का निर्माण करना, और वेक्टर समानता खोज को LLM अनुमान से बदलना। यह समाधान स्पष्ट श्रेणीबद्ध संरचना वाले पेशेवर लंबे दस्तावेज़ परिदृश्यों में उत्कृष्ट प्रदर्शन करता है, और व्याख्यात्मकता और ऑडिट क्षमता भी पारंपरिक समाधानों की तुलना में काफी बेहतर है।

Published in Technology

You Might Also Like

कैसे क्लाउड कंप्यूटिंग तकनीक का उपयोग करें: अपना पहला क्लाउड बुनियादी ढांचा बनाने के लिए पूर्ण गाइडTechnology

कैसे क्लाउड कंप्यूटिंग तकनीक का उपयोग करें: अपना पहला क्लाउड बुनियादी ढांचा बनाने के लिए पूर्ण गाइड

[[HTMLPLACEHOLDER0]] [[HTMLPLACEHOLDER1]] [[HTMLPLACEHOLDER2]] [[HTMLPLACEHOLDER3]] [[HTMLPLACEHOLDER4]] [[HTMLPLACEHOLD...

चेतावनी! Claude Code के पिता ने कहा: 1 महीने बाद Plan Mode का उपयोग नहीं होगा, सॉफ़्टवेयर इंजीनियर का शीर्षक गायब हो जाएगाTechnology

चेतावनी! Claude Code के पिता ने कहा: 1 महीने बाद Plan Mode का उपयोग नहीं होगा, सॉफ़्टवेयर इंजीनियर का शीर्षक गायब हो जाएगा

चेतावनी! Claude Code के पिता ने कहा: 1 महीने बाद Plan Mode का उपयोग नहीं होगा, सॉफ़्टवेयर इंजीनियर का शीर्षक गायब हो जाए...

2026 में शीर्ष 10 गहन शिक्षण संसाधनों की सिफारिशTechnology

2026 में शीर्ष 10 गहन शिक्षण संसाधनों की सिफारिश

2026 में शीर्ष 10 गहन शिक्षण संसाधनों की सिफारिश गहन शिक्षण के विभिन्न क्षेत्रों में तेजी से विकास के साथ, अधिक से अधिक ...

2026年 Top 10 AI 代理:核心卖点解析Technology

2026年 Top 10 AI 代理:核心卖点解析

2026年 Top 10 AI 代理:核心卖点解析 引言 随着人工智能的快速发展,AI 代理(AI Agents)已成为技术领域的热点话题。越来越多的开发者和企业开始探索如何利用这些智能代理提升工作效率和业务盈利。但在众多的 AI 代理解决...

2026 में शीर्ष 10 एआई उपकरणों की सिफारिश: कृत्रिम बुद्धिमत्ता की असली क्षमता को मुक्त करनाTechnology

2026 में शीर्ष 10 एआई उपकरणों की सिफारिश: कृत्रिम बुद्धिमत्ता की असली क्षमता को मुक्त करना

2026 में शीर्ष 10 एआई उपकरणों की सिफारिश: कृत्रिम बुद्धिमत्ता की असली क्षमता को मुक्त करना आज की तेजी से विकसित हो रही त...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 在快速发展的云计算领域,Amazon Web Services (AWS) 一直是领军者,提供丰富的服务和工具,帮助开发者、企业和技术专家在云上有效工作。以下是2026年值得关注的十大AWS工...