PageIndex Dypdykk: Vektorløs resonneringsbasert RAG, lar AI lese dokumenter som menneskelige eksperter

PageIndex er et vektorløst, resonneringsbasert RAG-rammeverk med åpen kildekode fra Vectify AI-teamet (GitHub 14.8k+ stjerner). Det konverterer lange dokumenter til et hierarkisk treindeks, bruker LLM for resonneringsbasert søk i treet, og oppnår 98,7 % nøyaktighet på FinanceBench finansdokument spørsmål og svar-benchmark.

1. Bakgrunn: De fem smertepunktene ved tradisjonell RAG

RAG har blitt de facto-standarden for store modellapplikasjoner. Hovedstrømsløsninger deler dokumenter inn i biter av fast lengde i forbehandlingsfasen, konverterer dem til vektorer gjennom en embedding-modell og lagrer dem i en vektor database; ved spørring gjøres den samme embeddingen for brukerens spørsmål, og deretter hentes Top-K-resultatene gjennom vektorlikhetssøk, som settes sammen som LLM-inndatakonteksten.

Denne prosessen er effektiv for korte tekster og generelle scenarier, men i scenarier med profesjonelle lange dokumenter (finansrapporter, lover og forskrifter, tekniske manualer osv.) avsløres fem grunnleggende problemer:

1) Likhet ≠ Relevans. Vektorsøk antar at «den semantisk mest like tekstblokken = den mest relevante svarkilden», men i profesjonelle dokumenter deler et stort antall avsnitt omtrentlig semantikk, men har store forskjeller i viktige detaljer.

2) Hard oppdeling ødelegger kontekstuell integritet. Å dele dokumenter i faste vinduer på 512 eller 1024 tokens vil avkorte setninger, avsnitt og til og med hele logiske avsnitt, noe som fører til tap av viktig kontekst.

3) Feiljustering av spørringsintensjon og kunnskapsrom. Brukerens spørring uttrykker en «intensjon» snarere enn «innhold», og query embedding og document embedding er i forskjellige semantiske rom.

4) Kan ikke håndtere referanser i dokumentet. Profesjonelle dokumenter inneholder ofte referanser som «se vedlegg G» og «se tabell 5.3». Det er ingen semantisk likhet mellom disse referansene og det refererte innholdet, og vektorsøk kan ikke matche dem.

5) Uavhengige spørringer, kan ikke utnytte dialoghistorikk. Hvert søk behandler spørringen som en uavhengig forespørsel og kan ikke kombinere den tidligere dialogkonteksten for å gjøre trinnvis søk.

2. PageIndex Overordnet Arkitektur

PageIndex er et vektorløst (Vectorless), resonneringsbasert (Reasoning-based) RAG-rammeverk. Kjernen i ideen er: I stedet for å la modellen gjøre omtrentlig matching i vektorrommet, er det bedre å la modellen resonnere på den strukturerte representasjonen av dokumentet – bestemme «hvor du skal se», i stedet for bare «hva som ser likt ut».

PageIndex simulerer måten menneskelige eksperter leser lange dokumenter på: først bla gjennom innholdsfortegnelsen, bestemme relevante kapitler basert på spørsmålet, og gå gradvis dypere til du finner målinnholdet. Denne prosessen oppnås i to trinn:

Bygg en trestrukturindeks: Konverter PDF/Markdown-dokumenter til et hierarkisk JSON-tre, som ligner på en «innholdsfortegnelse optimalisert for LLM»
Resonneringsbasert tresøk: LLM navigerer i treet basert på spørsmålet, lokaliserer relevante noder, trekker ut innhold og genererer svar

3. Kjerne Moduler Oppdeling

3.1 PDF Behandlings Pipeline

PageIndex sin PDF-behandlingspipeline er arrangert av tree_parser()-funksjonen. Kjerneflyten inkluderer: katalogdeteksjon (tre modusgrener), supplerende forord, flat liste til hierarkisk tre, rekursiv underdeling av store noder, berikende noder, JSON-trestrukturutgang.

Tre behandlingsmoduser:

process_toc_with_page_numbers (har innholdsfortegnelse + har sidetall): Bruk LLM til å konvertere den originale innholdsfortegnelsen til strukturert JSON, og kartlegg logiske sidetall til fysiske sidetall
process_no_toc (ingen innholdsfortegnelse): LLM utleder hierarkisk struktur direkte fra hovedtekstinnholdet
process_toc_no_page_numbers (har innholdsfortegnelse, men ingen sidetall): Trekk ut strukturen og utled deretter supplerende fysiske sidetall

3.2 Trestruktur Datamodell

Hver node i treet inneholder: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (array av undernoder) og andre felt.

3.3 Resonneringsbasert Søkemekanisme

Søkefasen er ikke avhengig av noen vektorberegninger. LLM mottar brukerspørsmålet og dokumenttrestrukturen, resonnerer basert på nodetitler og sammendrag, og sender ut sin «tankeprosess» og en liste over relaterte node_id-er. Systemet trekker deretter ut den komplette teksten til den tilsvarende noden fra node_map basert på node_id, setter den sammen som kontekst og gir den til LLM for å generere det endelige svaret.

4. Kjerne Design Høydepunkter

Vektorløs arkitektur: Ingen behov for embedding-modell og vektor database, reduserer infrastrukturkostnadene og forenkler distribusjonen
Bevarer dokumentets naturlige struktur: Organiser innhold etter dokumentets iboende kapitler/seksjoner/underkapitler, unngå tap av kontekst på tvers av chunks
Søkbarhet: Hvert søk returnerer en komplett resonneringskjede, som har klare fordeler i scenarier med høye krav til samsvar

5. Evaluering Resultater

Mafin 2.5 er et finansdokument spørsmål og svar-system basert på PageIndex. Ytelsen på FinanceBench (finansdokument QA-benchmark) når 98,7 % nøyaktighet, langt høyere enn Perplexity (45 %) og GPT-4o (31 %).

6. Egnede Scenarier

Egnet for: Lange dokumenter med klare hierarkiske strukturer (finansrapporter, forskrifter, lærebøker, manualer), lengde på titalls til hundrevis av sider

Uegnet for: Dokumenter uten strukturert innhold, skannede dokumenter uten OCR, dokumenter hovedsakelig bestående av tabeller/diagrammer, scenarier som krever sanntidsrespons på millisekundnivå

7. Sammendrag

PageIndex sitt kjernebidrag ligger i å foreslå et praktisk vektorløst RAG-paradigme: bruk dokumentets naturlige struktur til å bygge en treindeks, og bruk LLM-resonnement i stedet for vektorlikhetssøk. Denne løsningen yter utmerket i profesjonelle lange dokumentscenarier med klare hierarkiske strukturer, og forklarbarhet og revisjonssporbarhet er også betydelig bedre enn tradisjonelle løsninger.

PageIndex Dypdykk: Vektorløs resonneringsbasert RAG, lar AI lese dokumenter som menneskelige eksperter

1. Bakgrunn: De fem smertepunktene ved tradisjonell RAG

2. PageIndex Overordnet Arkitektur

3. Kjerne Moduler Oppdeling

3.1 PDF Behandlings Pipeline

3.2 Trestruktur Datamodell

3.3 Resonneringsbasert Søkemekanisme

4. Kjerne Design Høydepunkter

5. Evaluering Resultater

6. Egnede Scenarier

7. Sammendrag

You Might Also Like

Claude Code Buddy Modifikasjonsguide: Hvordan få glitrende legendariske kjæledyr

Obsidian har lansert Defuddle, og hevet Obsidian Web Clipper til nye høyder

OpenAI plutselig kunngjør "tre-i-ett": sammenslåing av nettleser + programmering + ChatGPT, internt innrømmer de at de har gått feil vei det siste året

2026, ikke tving deg selv til "selvdisiplin"! Gjør disse 8 små tingene, så kommer helsen naturlig

Mødre som sliter med å gå ned i vekt, er absolutt fanget her

AI Browser 24-timers stabil drift guide