PageIndex Dypdykk: Vektorløs resonneringsbasert RAG, lar AI lese dokumenter som menneskelige eksperter
PageIndex er et vektorløst, resonneringsbasert RAG-rammeverk med åpen kildekode fra Vectify AI-teamet (GitHub 14.8k+ stjerner). Det konverterer lange dokumenter til et hierarkisk treindeks, bruker LLM for resonneringsbasert søk i treet, og oppnår 98,7 % nøyaktighet på FinanceBench finansdokument spørsmål og svar-benchmark.

1. Bakgrunn: De fem smertepunktene ved tradisjonell RAG
RAG har blitt de facto-standarden for store modellapplikasjoner. Hovedstrømsløsninger deler dokumenter inn i biter av fast lengde i forbehandlingsfasen, konverterer dem til vektorer gjennom en embedding-modell og lagrer dem i en vektor database; ved spørring gjøres den samme embeddingen for brukerens spørsmål, og deretter hentes Top-K-resultatene gjennom vektorlikhetssøk, som settes sammen som LLM-inndatakonteksten.
Denne prosessen er effektiv for korte tekster og generelle scenarier, men i scenarier med profesjonelle lange dokumenter (finansrapporter, lover og forskrifter, tekniske manualer osv.) avsløres fem grunnleggende problemer:
1) Likhet ≠ Relevans. Vektorsøk antar at «den semantisk mest like tekstblokken = den mest relevante svarkilden», men i profesjonelle dokumenter deler et stort antall avsnitt omtrentlig semantikk, men har store forskjeller i viktige detaljer.
2) Hard oppdeling ødelegger kontekstuell integritet. Å dele dokumenter i faste vinduer på 512 eller 1024 tokens vil avkorte setninger, avsnitt og til og med hele logiske avsnitt, noe som fører til tap av viktig kontekst.
3) Feiljustering av spørringsintensjon og kunnskapsrom. Brukerens spørring uttrykker en «intensjon» snarere enn «innhold», og query embedding og document embedding er i forskjellige semantiske rom.
4) Kan ikke håndtere referanser i dokumentet. Profesjonelle dokumenter inneholder ofte referanser som «se vedlegg G» og «se tabell 5.3». Det er ingen semantisk likhet mellom disse referansene og det refererte innholdet, og vektorsøk kan ikke matche dem.
5) Uavhengige spørringer, kan ikke utnytte dialoghistorikk. Hvert søk behandler spørringen som en uavhengig forespørsel og kan ikke kombinere den tidligere dialogkonteksten for å gjøre trinnvis søk.
2. PageIndex Overordnet Arkitektur
PageIndex er et vektorløst (Vectorless), resonneringsbasert (Reasoning-based) RAG-rammeverk. Kjernen i ideen er: I stedet for å la modellen gjøre omtrentlig matching i vektorrommet, er det bedre å la modellen resonnere på den strukturerte representasjonen av dokumentet – bestemme «hvor du skal se», i stedet for bare «hva som ser likt ut».
PageIndex simulerer måten menneskelige eksperter leser lange dokumenter på: først bla gjennom innholdsfortegnelsen, bestemme relevante kapitler basert på spørsmålet, og gå gradvis dypere til du finner målinnholdet. Denne prosessen oppnås i to trinn:
- Bygg en trestrukturindeks: Konverter PDF/Markdown-dokumenter til et hierarkisk JSON-tre, som ligner på en «innholdsfortegnelse optimalisert for LLM»
- Resonneringsbasert tresøk: LLM navigerer i treet basert på spørsmålet, lokaliserer relevante noder, trekker ut innhold og genererer svar

3. Kjerne Moduler Oppdeling
3.1 PDF Behandlings Pipeline
PageIndex sin PDF-behandlingspipeline er arrangert av tree_parser()-funksjonen. Kjerneflyten inkluderer: katalogdeteksjon (tre modusgrener), supplerende forord, flat liste til hierarkisk tre, rekursiv underdeling av store noder, berikende noder, JSON-trestrukturutgang.
Tre behandlingsmoduser:
- process_toc_with_page_numbers (har innholdsfortegnelse + har sidetall): Bruk LLM til å konvertere den originale innholdsfortegnelsen til strukturert JSON, og kartlegg logiske sidetall til fysiske sidetall
- process_no_toc (ingen innholdsfortegnelse): LLM utleder hierarkisk struktur direkte fra hovedtekstinnholdet
- process_toc_no_page_numbers (har innholdsfortegnelse, men ingen sidetall): Trekk ut strukturen og utled deretter supplerende fysiske sidetall
3.2 Trestruktur Datamodell
Hver node i treet inneholder: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (array av undernoder) og andre felt.
3.3 Resonneringsbasert Søkemekanisme
Søkefasen er ikke avhengig av noen vektorberegninger. LLM mottar brukerspørsmålet og dokumenttrestrukturen, resonnerer basert på nodetitler og sammendrag, og sender ut sin «tankeprosess» og en liste over relaterte node_id-er. Systemet trekker deretter ut den komplette teksten til den tilsvarende noden fra node_map basert på node_id, setter den sammen som kontekst og gir den til LLM for å generere det endelige svaret.

4. Kjerne Design Høydepunkter
- Vektorløs arkitektur: Ingen behov for embedding-modell og vektor database, reduserer infrastrukturkostnadene og forenkler distribusjonen
- Bevarer dokumentets naturlige struktur: Organiser innhold etter dokumentets iboende kapitler/seksjoner/underkapitler, unngå tap av kontekst på tvers av chunks
- Søkbarhet: Hvert søk returnerer en komplett resonneringskjede, som har klare fordeler i scenarier med høye krav til samsvar
5. Evaluering Resultater
Mafin 2.5 er et finansdokument spørsmål og svar-system basert på PageIndex. Ytelsen på FinanceBench (finansdokument QA-benchmark) når 98,7 % nøyaktighet, langt høyere enn Perplexity (45 %) og GPT-4o (31 %).

6. Egnede Scenarier
Egnet for: Lange dokumenter med klare hierarkiske strukturer (finansrapporter, forskrifter, lærebøker, manualer), lengde på titalls til hundrevis av sider
Uegnet for: Dokumenter uten strukturert innhold, skannede dokumenter uten OCR, dokumenter hovedsakelig bestående av tabeller/diagrammer, scenarier som krever sanntidsrespons på millisekundnivå
7. Sammendrag
PageIndex sitt kjernebidrag ligger i å foreslå et praktisk vektorløst RAG-paradigme: bruk dokumentets naturlige struktur til å bygge en treindeks, og bruk LLM-resonnement i stedet for vektorlikhetssøk. Denne løsningen yter utmerket i profesjonelle lange dokumentscenarier med klare hierarkiske strukturer, og forklarbarhet og revisjonssporbarhet er også betydelig bedre enn tradisjonelle løsninger.





