PageIndex Diepgaande Analyse: Vectorloze Redenering-gebaseerde RAG, Laat AI Documenten Lezen als Menselijke Experts

2/15/2026
5 min read

PageIndex is een vectorloos, redenering-gebaseerd RAG-framework (GitHub 14.8k+ sterren) dat is open-sourced door het Vectify AI-team. Het converteert lange documenten naar een hiërarchische boomindex en gebruikt LLM voor redenerende zoekopdrachten in de boom, waardoor een nauwkeurigheid van 98,7% wordt bereikt op de FinanceBench financiële documentvraag- en antwoordbenchmark.

1. Achtergrond: Vijf pijnpunten van traditionele RAG

RAG is de de facto standaard geworden voor grootschalige modeltoepassingen. De mainstream oplossing verdeelt documenten in chunks van vaste lengte in de pre-processing fase, converteert ze naar vectoren via een embedding model en slaat ze op in een vector database; bij het zoeken wordt dezelfde embedding toegepast op de gebruikersvraag, en vervolgens worden de Top-K resultaten opgeroepen via vector similarity search en samengevoegd tot de input context van de LLM.

Deze workflow is effectief in korte tekst en algemene scenario's, maar in professionele lange documenten (financiële rapporten, wet- en regelgeving, technische handleidingen, enz.) komen vijf fundamentele problemen aan het licht:

1) Gelijkheid ≠ Relevantie. Vector search gaat ervan uit dat "de meest semantisch vergelijkbare tekstblokken = de meest relevante antwoordbronnen", maar in professionele documenten delen veel paragrafen een vergelijkbare semantiek, maar verschillen ze enorm in cruciale details.

2) Harde chunking vernietigt de volledigheid van de context. Het opdelen van documenten in vaste vensters van 512 of 1024 tokens zal zinnen, paragrafen of zelfs hele logische paragrafen afbreken, wat leidt tot het verlies van cruciale context.

3) Mismatch tussen zoekintentie en kennisruimte. De query van de gebruiker drukt een "intentie" uit in plaats van "inhoud", en de query embedding en document embedding bevinden zich in verschillende semantische ruimtes.

4) Kan verwijzingen in documenten niet verwerken. Professionele documenten bevatten vaak verwijzingen zoals "zie bijlage G" of "zie tabel 5.3". Er is geen semantische gelijkenis tussen deze verwijzingen en de inhoud waarnaar wordt verwezen, en vector search kan ze niet matchen.

5) Onafhankelijke zoekopdrachten, kan de dialooggeschiedenis niet gebruiken. Elke zoekopdracht behandelt de query als een onafhankelijk verzoek en kan de context van eerdere dialogen niet combineren voor incrementele zoekopdrachten.

2. PageIndex Algemene Architectuur

PageIndex is een vectorloos, redenering-gebaseerd RAG-framework. Het kernidee is: in plaats van het model benaderende overeenkomsten te laten maken in de vectorruimte, is het beter om het model te laten redeneren over de gestructureerde representatie van het document - beslissen "waar te kijken", in plaats van alleen "wat er vergelijkbaar uitziet".

PageIndex simuleert de manier waarop menselijke experts lange documenten lezen: eerst de inhoudsopgave bekijken, de relevante hoofdstukken bepalen op basis van de vraag en vervolgens geleidelijk dieper ingaan totdat de doelinhoud is gevonden. Dit proces wordt in twee stappen bereikt:

  • Een boomstructuurindex bouwen: PDF/Markdown-documenten converteren naar een hiërarchische JSON-boom, vergelijkbaar met "een inhoudsopgave die is geoptimaliseerd voor LLM"
  • Redenering-gebaseerde boomzoekopdracht: LLM navigeert redenerend door de boom op basis van de vraag, lokaliseert relevante knooppunten, extraheert inhoud en genereert antwoorden

3. Kernmodule Demontage

3.1 PDF Verwerkingspijplijn

De PDF-verwerkingspijplijn van PageIndex wordt georkestreerd door de functie tree_parser(). De kernworkflow omvat: inhoudsopgave detectie (drie modusvertakkingen), aanvullend voorwoord, platte lijst naar hiërarchische boom, recursieve onderverdeling van grote knooppunten, verrijking van knooppunten, JSON-boomstructuur uitvoer.

Drie verwerkingsmodi:

  • process_toc_with_page_numbers (met inhoudsopgave + met paginanummers): gebruikt LLM om de originele inhoudsopgave te converteren naar gestructureerde JSON, en wijst logische paginanummers toe aan fysieke paginanummers
  • process_no_toc (geen inhoudsopgave): LLM leidt de hiërarchische structuur rechtstreeks af uit de hoofdtekst
  • process_toc_no_page_numbers (met inhoudsopgave maar zonder paginanummers): extraheert de structuur en leidt vervolgens fysieke paginanummers af en vult deze aan

3.2 Boomstructuur Datamodel

Elk knooppunt in de boom bevat velden zoals: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (array van onderliggende knooppunten), enz.

3.3 Redenering-gebaseerd Zoekmechanisme

De zoekfase is niet afhankelijk van vectorberekeningen. LLM ontvangt de gebruikersvraag en de documentboomstructuur, redeneert op basis van de knooppunttitels en samenvattingen en voert het "denkproces" en de lijst met relevante node_id's uit. Het systeem extraheert vervolgens de volledige tekst van de overeenkomstige knooppunten uit de node_map op basis van de node_id, voegt deze samen tot de context en geeft deze aan LLM om het uiteindelijke antwoord te genereren.

4. Belangrijkste Ontwerp Hoogtepunten

  • Vectorloze architectuur: geen embedding model en vector database nodig, waardoor de infrastructuurkosten worden verlaagd en de implementatie wordt vereenvoudigd
  • Behoudt de natuurlijke documentstructuur: organiseert inhoud op basis van de inherente hoofdstukken/secties/subhoofdstukken van het document, waardoor contextverlies over chunks wordt vermeden
  • Uitlegbaarheid van de zoekopdracht: elke zoekopdracht retourneert een volledige redeneringsketen, wat een duidelijk voordeel is in scenario's met hoge compliance-eisen

5. Evaluatie Resultaten

Mafin 2.5 is een financieel documentvraag- en antwoordsysteem gebaseerd op PageIndex. De prestaties op FinanceBench (financiële document QA benchmark) bereiken een nauwkeurigheid van 98,7%, wat veel hoger is dan Perplexity (45%) en GPT-4o (31%).

6. Toepasselijke Scenario's

Geschikt voor: Lange documenten met een duidelijke hiërarchische structuur (financiële rapporten, wet- en regelgeving, leerboeken, handleidingen), met een lengte van tientallen tot honderden pagina's

Niet geschikt voor: Documenten zonder gestructureerde inhoud, gescande documenten zonder OCR, documenten die voornamelijk uit tabellen/grafieken bestaan, scenario's die real-time responsen op millisecondeniveau vereisen

7. Samenvatting

De belangrijkste bijdrage van PageIndex is de introductie van een praktisch vectorloos RAG-paradigma: het bouwen van een boomindex met behulp van de natuurlijke documentstructuur en het vervangen van vector similarity search door LLM-redenering. Deze oplossing presteert uitstekend in professionele lange document scenario's met een duidelijke hiërarchische structuur, en de uitlegbaarheid en controleerbaarheid zijn ook aanzienlijk beter dan traditionele oplossingen.

Published in Technology

You Might Also Like