PageIndexi süvaanalüüs: Vektorivaba järelduslik RAG, mis võimaldab tehisintellektil lugeda dokumente nagu inimspetsialist

2/15/2026
4 min read

PageIndex on Vectify AI meeskonna avatud lähtekoodiga vektorivaba, järelduslik RAG raamistik (GitHub 14.8k+ tärni). See teisendab pikad dokumendid hierarhiliseks puuindeksiks ja kasutab LLM-i puul järelduslikuks otsinguks, saavutades FinanceBenchi finantsdokumentide küsimuste ja vastuste võrdlusalusel 98,7% täpsuse.

1. Taust: Traditsioonilise RAG viis valupunkti

RAG on muutunud suurte mudelite rakenduste de facto standardiks. Peavoolu lahendused jagavad eeltöötlusetapis dokumendid fikseeritud pikkusega tükkideks (chunk), teisendavad need embedding mudeli abil vektoriteks ja salvestavad vektorandmebaasi; päringu korral tehakse kasutaja küsimusele sama embedding ja seejärel kutsutakse vektorite sarnasuse otsingu abil tagasi Top-K tulemused, mis ühendatakse LLM-i sisendkontekstiks.

See protsess on tõhus lühitekstide ja üldiste stsenaariumide puhul, kuid professionaalsete pikkade dokumentide (finantsaruanded, seadused ja määrused, tehnilised juhendid jne) stsenaariumide puhul ilmnevad viis põhimõttelist probleemi:

1) Sarnasus ≠ Seos. Vektorotsing eeldab, et "semantiliselt kõige sarnasem tekstiplokk = kõige asjakohasem vastuse allikas", kuid professionaalsetes dokumentides jagavad paljud lõigud ligikaudset semantikat, kuid erinevad olulistes detailides.

2) Jäik tükeldamine hävitab konteksti terviklikkuse. Dokumentide jagamine fikseeritud 512 või 1024 tokeni aknaga katkestab lauseid, lõike ja isegi terveid loogilisi lõike, mis põhjustab olulise konteksti kadumise.

3) Päringu kavatsus ja teadmusruum on valesti joondatud. Kasutajate päringud väljendavad "kavatsust" mitte "sisu", query embedding ja document embedding asuvad erinevates semantilistes ruumides.

4) Ei saa käsitleda dokumentide sisemisi viiteid. Professionaalsetes dokumentides on tavalised viited nagu "vt lisa G", "vt tabel 5.3" jne. Nende viidete ja viidatud sisu vahel puudub semantiline sarnasus, vektorotsing ei suuda neid sobitada.

5) Sõltumatud päringud, ei saa kasutada vestluse ajalugu. Iga otsing käsitleb päringut sõltumatu taotlusena, ei saa kombineerida eelmise vestluse konteksti, et teha järkjärgulist otsingut.

2. PageIndexi üldine arhitektuur

PageIndex on vektorivaba (Vectorless), järelduspõhine (Reasoning-based) RAG raamistik. Selle peamine idee on: selle asemel, et lasta mudelil teha vektorruumis ligikaudset sobitamist, on parem lasta mudelil järeldada dokumendi struktureeritud esitusel – otsustada, "kuhu vaadata", mitte ainult "mis tundub sarnane".

PageIndex simuleerib inimspetsialistide pikkade dokumentide lugemise viisi: kõigepealt sirvitakse sisukorda, otsustatakse küsimuse põhjal asjakohased peatükid ja süvenetakse kiht-kihilt, kuni leitakse sihtsisu. See protsess saavutatakse kahes etapis:

  • Puu struktuuri indeksi loomine: teisendab PDF/Markdown dokumendid hierarhiliseks JSON puuks, mis sarnaneb "LLM-i jaoks optimeeritud sisukorraga"
  • Järelduslik puuotsing: LLM navigeerib küsimuse põhjal puul järelduste abil, et leida asjakohased sõlmed, eraldada sisu ja genereerida vastuseid

3. Põhimoodulite lahtivõtmine

3.1 PDF-i töötlemise konveier

PageIndexi PDF-i töötlemise konveieri korraldab funktsioon tree_parser(), mille peamised etapid on: sisukorra tuvastamine (kolm režiimi haru), eessõna täiendamine, lameda loendi teisendamine hierarhiliseks puuks, suurte sõlmede rekursiivne jagamine, sõlmede rikastamine, JSON puu struktuuri väljund.

Kolm töötlemisrežiimi:

  • process_toc_with_page_numbers (sisukord + leheküljenumbrid): kasutab LLM-i algse sisukorra teisendamiseks struktureeritud JSON-iks, mis kaardistab loogilised leheküljenumbrid füüsilistele leheküljenumbritele
  • process_no_toc (sisukord puudub): LLM tuletab hierarhilise struktuuri otse põhiteksti sisust
  • process_toc_no_page_numbers (sisukord on olemas, kuid leheküljenumbreid pole): ekstraheerib struktuuri ja seejärel tuletab ja täiendab füüsilisi leheküljenumbreid

3.2 Puu struktuuri andmemudel

Puu iga sõlm sisaldab järgmisi välju: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (alamõlmede massiiv) jne.

3.3 Järelduslik otsingumehhanism

Otsinguetapp ei sõltu ühestki vektorarvutusest. LLM saab kasutaja küsimuse ja dokumendipuu struktuuri, teeb sõlmede pealkirjade ja kokkuvõtete põhjal järeldusi ning väljastab oma "mõtteprotsessi" ja asjakohaste node_id-de loendi. Seejärel eraldab süsteem node_id põhjal vastava sõlme täieliku teksti node_map-ist, ühendab selle kontekstiks ja annab LLM-ile lõpliku vastuse genereerimiseks.

4. Põhilised disaini esiletõstmised

  • Vektorivaba arhitektuur: pole vaja embedding mudelit ja vektorandmebaasi, mis vähendab infrastruktuuri kulusid ja lihtsustab juurutamist
  • Säilitab dokumendi loomuliku struktuuri: korraldab sisu vastavalt dokumendi omastele peatükkidele/alajaotistele/alampeatükkidele, vältides konteksti kadu üle tükkide
  • Otsingu seletatavus: iga otsing tagastab täieliku järeldusahela, millel on selge eelis nõuetele vastavuse kõrgete nõuetega stsenaariumides

5. Hindamistulemused

Mafin 2.5 on PageIndexil põhinev finantsdokumentide küsimuste ja vastuste süsteem. Selle jõudlus FinanceBenchil (finantsdokumentide QA võrdlustest) ulatub 98,7% täpsuseni, mis on palju suurem kui Perplexity (45%) ja GPT-4o (31%).

6. Sobivad stsenaariumid

Sobib: selge hierarhilise struktuuriga pikad dokumendid (finantsaruanded, seadused ja määrused, õppematerjalid, juhendid), pikkusega kümnetest kuni sadade lehekülgedeni

Ei sobi: struktureerimata sisuga dokumendid, OCR-ita skaneeritud dokumendid, tabelite/diagrammide põhised dokumendid, stsenaariumid, mis nõuavad millisekundilist reaalajas reageerimist

7. Kokkuvõte

PageIndexi peamine panus on praktilise vektorivaba RAG paradigma väljapakumine: dokumendi loomuliku struktuuri abil puuindeksi loomine ja LLM-i järelduste kasutamine vektorite sarnasuse otsingu asendamiseks. See lahendus toimib suurepäraselt selge hierarhilise struktuuriga professionaalsete pikkade dokumentide stsenaariumides ning seletatavus ja auditeeritavus on samuti oluliselt paremad kui traditsioonilistel lahendustel.

Published in Technology

You Might Also Like