PageIndex యొక్క లోతైన విశ్లేషణ: వెక్టార్ రహిత అనుమితి ఆధారిత RAG, AI ని మానవ నిపుణుడిలా పత్రాలను చదవడానికి అనుమతిస్తుంది

PageIndex అనేది Vectify AI బృందం ద్వారా ఓపెన్ సోర్స్ చేయబడిన వెక్టార్ రహిత, అనుమితి ఆధారిత RAG ఫ్రేమ్‌వర్క్ (GitHub 14.8k+ నక్షత్రాలు). ఇది పొడవైన పత్రాలను సోపానక్రమ వృక్ష సూచికగా మారుస్తుంది, వృక్షంపై అనుమితి ఆధారిత శోధనను నిర్వహించడానికి LLMని ఉపయోగిస్తుంది మరియు FinanceBench ఆర్థిక పత్ర ప్రశ్న మరియు సమాధానాల బెంచ్‌మార్క్‌లో 98.7% ఖచ్చితత్వాన్ని సాధిస్తుంది.

1. నేపథ్యం: సాంప్రదాయ RAG యొక్క ఐదు బాధాకరమైన అంశాలు

RAG అనేది పెద్ద మోడల్ అప్లికేషన్‌లకు వాస్తవ ప్రమాణంగా మారింది. ప్రధాన స్రవంతి పరిష్కారాలు ముందస్తు ప్రాసెసింగ్ దశలో పత్రాలను స్థిర పొడవు గల భాగాలుగా విభజిస్తాయి, వాటిని ఎంబెడ్డింగ్ మోడల్ ద్వారా వెక్టార్‌లుగా మారుస్తాయి మరియు వెక్టార్ డేటాబేస్‌లో నిల్వ చేస్తాయి; ప్రశ్నించేటప్పుడు, వినియోగదారు ప్రశ్న యొక్క అదే ఎంబెడ్డింగ్‌ను తయారు చేస్తారు, ఆపై వెక్టార్ సారూప్యత శోధన ద్వారా టాప్-K ఫలితాలను తిరిగి పొందుతారు మరియు LLM యొక్క ఇన్‌పుట్ సందర్భంగా కలుపుతారు.

ఈ ప్రక్రియ చిన్న టెక్స్ట్ మరియు సాధారణ దృశ్యాలలో ప్రభావవంతంగా ఉంటుంది, అయితే వృత్తిపరమైన పొడవైన పత్రాలు (ఆర్థిక నివేదికలు, చట్టాలు మరియు నిబంధనలు, సాంకేతిక మాన్యువల్‌లు మొదలైనవి) దృశ్యాలలో, ఇది ఐదు ప్రాథమిక సమస్యలను బహిర్గతం చేస్తుంది:

1) సారూప్యత ≠ సంబంధితం. వెక్టార్ శోధన "సిమాంటిక్‌గా అత్యంత సారూప్య టెక్స్ట్ బ్లాక్ = అత్యంత సంబంధిత సమాధాన మూలం" అని ఊహిస్తుంది, అయితే వృత్తిపరమైన పత్రాలలో, అనేక పేరాలు దాదాపు సిమాంటిక్స్‌ను పంచుకుంటాయి, అయితే కీలకమైన వివరాలలో భారీ వ్యత్యాసాలు ఉన్నాయి.

2) హార్డ్ బ్లాకింగ్ సందర్భోచిత సమగ్రతను నాశనం చేస్తుంది. 512 లేదా 1024 టోకెన్‌ల స్థిర విండో ద్వారా పత్రాలను విభజించడం వలన వాక్యాలు, పేరాలు మరియు మొత్తం లాజికల్ విభాగం కూడా తెగిపోతాయి, దీని వలన కీలకమైన సందర్భం కోల్పోబడుతుంది.

3) ప్రశ్న ఉద్దేశ్యం మరియు జ్ఞాన స్థలం తప్పుగా అమర్చబడ్డాయి. వినియోగదారుల ప్రశ్నలు "ఉద్దేశ్యాన్ని" వ్యక్తపరుస్తాయి కానీ "కంటెంట్‌ను" కాదు మరియు ప్రశ్న ఎంబెడ్డింగ్ మరియు డాక్యుమెంట్ ఎంబెడ్డింగ్ వేర్వేరు సిమాంటిక్ స్థలాలలో ఉంటాయి.

4) పత్రంలోని సూచనలను నిర్వహించలేరు. వృత్తిపరమైన పత్రాలలో, "వివరాల కోసం అనుబంధం G చూడండి" మరియు "టేబుల్ 5.3 చూడండి" వంటి సూచనలు సాధారణం, ఈ సూచనలు మరియు సూచించబడిన కంటెంట్ మధ్య సిమాంటిక్ సారూప్యత లేదు మరియు వెక్టార్ శోధన సరిపోలడం సాధ్యం కాదు.

5) స్వతంత్ర ప్రశ్న, సంభాషణ చరిత్రను ఉపయోగించలేరు. ప్రతి శోధన ప్రశ్నను స్వతంత్ర అభ్యర్థనగా పరిగణిస్తుంది మరియు మునుపటి సంభాషణ సందర్భాన్ని కలిపి క్రమంగా శోధన చేయదు.

2. PageIndex మొత్తం నిర్మాణం

PageIndex అనేది వెక్టార్ రహిత (Vectorless), అనుమితి ఆధారిత (Reasoning-based) RAG ఫ్రేమ్‌వర్క్. దీని ప్రధాన ఆలోచన ఏమిటంటే: మోడల్ వెక్టార్ స్థలంలో సుమారుగా సరిపోల్చడానికి బదులుగా, పత్రం యొక్క నిర్మాణాత్మక ప్రాతినిధ్యంపై మోడల్‌ను అనుమితి చేయడానికి అనుమతించండి - "ఎక్కడ చూడాలి" అని నిర్ణయించండి, కేవలం "ఏది సారూప్యంగా కనిపిస్తుంది" కాదు.

PageIndex పొడవైన పత్రాలను చదవడానికి మానవ నిపుణుడు ఉపయోగించే విధానాన్ని అనుకరిస్తుంది: మొదట విషయ సూచికను బ్రౌజ్ చేయండి, ప్రశ్నకు సంబంధించిన అధ్యాయాలను నిర్ణయించండి మరియు లక్ష్య కంటెంట్‌ను కనుగొనే వరకు క్రమంగా లోతుగా వెళ్లండి. ఈ ప్రక్రియ రెండు దశల ద్వారా సాధించబడుతుంది:

వృక్ష నిర్మాణ సూచికను నిర్మించండి: PDF/Markdown పత్రాలను సోపానక్రమ JSON వృక్షంగా మార్చండి, ఇది "LLM కోసం ఆప్టిమైజ్ చేయబడిన విషయ సూచిక" లాంటిది.
అనుమితి ఆధారిత వృక్ష శోధన: LLM ప్రశ్న ఆధారంగా వృక్షంపై అనుమితి నావిగేషన్‌ను నిర్వహిస్తుంది, సంబంధిత నోడ్‌లను గుర్తించి, కంటెంట్‌ను సంగ్రహించి సమాధానాలను ఉత్పత్తి చేస్తుంది.

3. ప్రధాన మాడ్యూల్ విశ్లేషణ

3.1 PDF ప్రాసెసింగ్ పైప్‌లైన్

PageIndex యొక్క PDF ప్రాసెసింగ్ పైప్‌లైన్ tree_parser() ఫంక్షన్ ద్వారా నిర్వహించబడుతుంది మరియు ప్రధాన ప్రక్రియలో విషయ సూచిక గుర్తింపు (మూడు మోడ్‌ల శాఖలు), ముందుమాటను పూరించడం, ఫ్లాట్ జాబితాను సోపానక్రమ వృక్షంగా మార్చడం, పెద్ద నోడ్‌లను పునరావృతంగా విభజించడం, నోడ్‌లను సుసంపన్నం చేయడం మరియు JSON వృక్ష నిర్మాణ అవుట్‌పుట్ ఉన్నాయి.

మూడు ప్రాసెసింగ్ మోడ్‌లు:

process_toc_with_page_numbers (విషయ సూచిక + పేజీ సంఖ్యలు ఉన్నాయి): LLMని ఉపయోగించి అసలు విషయ సూచికను నిర్మాణాత్మక JSONగా మార్చండి మరియు లాజికల్ పేజీ సంఖ్యలను భౌతిక పేజీ సంఖ్యలకు మ్యాప్ చేయండి.
process_no_toc (విషయ సూచిక లేదు): LLM ద్వారా ప్రధాన వచన కంటెంట్ నుండి నేరుగా సోపానక్రమ నిర్మాణాన్ని ఊహించండి.
process_toc_no_page_numbers (విషయ సూచిక ఉంది కానీ పేజీ సంఖ్యలు లేవు): నిర్మాణాన్ని సంగ్రహించిన తర్వాత భౌతిక పేజీ సంఖ్యలను ఊహించి పూరించండి.

3.2 వృక్ష నిర్మాణ డేటా మోడల్

వృక్షంలోని ప్రతి నోడ్‌లో శీర్షిక, node_id, start_index, end_index, సారాంశం, prefix_summary, టెక్స్ట్, nodes (చైల్డ్ నోడ్స్ శ్రేణి) మొదలైన ఫీల్డ్‌లు ఉంటాయి.

3.3 అనుమితి ఆధారిత శోధన యంత్రాంగం

శోధన దశలో ఎటువంటి వెక్టార్ గణనపై ఆధారపడదు. LLM వినియోగదారు ప్రశ్న మరియు పత్ర వృక్ష నిర్మాణాన్ని స్వీకరిస్తుంది, నోడ్ శీర్షిక మరియు సారాంశం ఆధారంగా అనుమితిని నిర్వహిస్తుంది మరియు దాని "ఆలోచనా ప్రక్రియ" మరియు సంబంధిత node_id జాబితాను అవుట్‌పుట్ చేస్తుంది. సిస్టమ్ node_id ఆధారంగా node_map నుండి సంబంధిత నోడ్ యొక్క పూర్తి వచనాన్ని సంగ్రహిస్తుంది, దానిని సందర్భంగా కలుపుతుంది మరియు LLMకి తుది సమాధానాన్ని ఉత్పత్తి చేయడానికి అందిస్తుంది.

4. ప్రధాన డిజైన్ ముఖ్యాంశాలు

వెక్టార్ రహిత నిర్మాణం: ఎంబెడ్డింగ్ మోడల్ మరియు వెక్టార్ డేటాబేస్ అవసరం లేదు, మౌలిక సదుపాయాల ఖర్చులను తగ్గిస్తుంది మరియు విస్తరణను సులభతరం చేస్తుంది.
పత్రం యొక్క సహజ నిర్మాణాన్ని నిలుపుకుంటుంది: పత్రం యొక్క అంతర్గత అధ్యాయాలు/విభాగాలు/ఉప అధ్యాయాల ద్వారా కంటెంట్‌ను నిర్వహించండి, చంక్ అంతటా సందర్భం కోల్పోకుండా నిరోధించండి.
శోధన యొక్క వివరణాత్మకత: ప్రతి శోధన పూర్తి అనుమితి గొలుసును అందిస్తుంది, అధిక సమ్మతి అవసరాలు ఉన్న దృశ్యాలలో స్పష్టమైన ప్రయోజనాలను కలిగి ఉంటుంది.

5. మూల్యాంకన ఫలితాలు

Mafin 2.5 అనేది PageIndex ఆధారంగా రూపొందించబడిన ఆర్థిక పత్ర ప్రశ్న మరియు సమాధానాల వ్యవస్థ. FinanceBench (ఆర్థిక పత్ర QA బెంచ్‌మార్క్ పరీక్ష)లో 98.7% ఖచ్చితత్వాన్ని సాధించింది, ఇది Perplexity (45%) మరియు GPT-4o (31%) కంటే చాలా ఎక్కువ.

6. వర్తించే దృశ్యాలు

దీనికి అనుకూలం: స్పష్టమైన సోపానక్రమ నిర్మాణం కలిగిన పొడవైన పత్రాలు (ఆర్థిక నివేదికలు, నిబంధనలు, పాఠ్యపుస్తకాలు, మాన్యువల్‌లు), పదుల నుండి వందల పేజీల పొడవు

దీనికి అనుకూలం కాదు: నిర్మాణాత్మక కంటెంట్ లేని పత్రాలు, OCR చేయని స్కాన్ చేసిన పత్రాలు, పట్టికలు/గ్రాఫ్‌ల ఆధారంగా రూపొందించబడిన పత్రాలు, మిల్లీసెకన్ల రియల్-టైమ్ ప్రతిస్పందన అవసరమయ్యే దృశ్యాలు

7. సారాంశం

PageIndex యొక్క ప్రధాన సహకారం ఏమిటంటే, ఇది ఆచరణాత్మక వెక్టార్ రహిత RAG నమూనాను ప్రతిపాదించింది: పత్రం యొక్క సహజ నిర్మాణాన్ని ఉపయోగించి వృక్ష సూచికను నిర్మించడం మరియు వెక్టార్ సారూప్యత శోధనకు బదులుగా LLM అనుమితిని ఉపయోగించడం. ఈ పరిష్కారం స్పష్టమైన సోపానక్రమ నిర్మాణం కలిగిన వృత్తిపరమైన పొడవైన పత్రాల దృశ్యాలలో అద్భుతంగా పనిచేస్తుంది మరియు సాంప్రదాయ పరిష్కారాల కంటే వివరణాత్మకత మరియు ఆడిట్ చేయగల సామర్థ్యం కూడా గణనీయంగా మెరుగ్గా ఉన్నాయి.