PageIndex Poglobljena analiza: RAG brez vektorskega sklepanja, ki omogoča AI, da bere dokumente kot človeški strokovnjak
PageIndex je RAG okvir brez vektorjev, ki temelji na sklepanju in ga je odprtokodno razvila ekipa Vectify AI (GitHub 14.8k+ zvezdic). Dolge dokumente pretvori v hierarhično drevesno indeksiranje, uporablja LLM za sklepalno iskanje po drevesu in doseže 98,7 % natančnost na merilu za odgovarjanje na vprašanja o finančnih dokumentih FinanceBench.

1. Ozadje: Pet bolečih točk tradicionalnega RAG
RAG je postal de facto standard za aplikacije velikih modelov. Glavna rešitev v fazi predobdelave razdeli dokumente na dele fiksne dolžine (chunk), jih s pomočjo modela za vdelavo pretvori v vektorje in shrani v vektorsko bazo podatkov; pri poizvedbi se enako vdelava izvede za uporabnikovo vprašanje, nato pa se s pomočjo iskanja podobnosti vektorjev prikličejo rezultati Top-K, ki se združijo v vhodni kontekst za LLM.
Ta postopek je učinkovit pri kratkih besedilih in splošnih scenarijih, vendar se v scenarijih strokovnih dolgih dokumentov (finančna poročila, zakoni in predpisi, tehnični priročniki itd.) razkrije pet temeljnih problemov:
1) Podobnost ≠ relevantnost. Vektorsko iskanje predpostavlja, da je »semantično najbolj podoben blok besedila = najbolj relevanten vir odgovora«, vendar si v strokovnih dokumentih veliko odstavkov deli približno enako semantiko, vendar se bistveno razlikujejo v ključnih podrobnostih.
2) Trda razdelitev uničuje celovitost konteksta. Razdelitev dokumenta s fiksnim oknom 512 ali 1024 žetonov bo prekinila stavke, odstavke ali celo celotne logične odstavke, kar bo povzročilo izgubo ključnega konteksta.
3) Neusklajenost namena poizvedbe in prostora znanja. Uporabnikova poizvedba izraža »namen« in ne »vsebino«, vdelava poizvedbe in vdelava dokumenta sta v različnih semantičnih prostorih.
4) Ne more obravnavati sklicev v dokumentu. V strokovnih dokumentih so pogosti sklici, kot so »za podrobnosti glejte prilogo G« ali »glejte tabelo 5.3«. Med temi sklici in vsebino, na katero se sklicujejo, ni semantične podobnosti, vektorsko iskanje pa jih ne more ujemati.
5) Neodvisne poizvedbe, ne morejo izkoristiti zgodovine pogovora. Vsako iskanje obravnava poizvedbo kot neodvisno zahtevo in ne more združiti konteksta prejšnjega pogovora za postopno iskanje.
2. Splošna arhitektura PageIndex
PageIndex je RAG okvir brez vektorjev (Vectorless), ki temelji na sklepanju (Reasoning-based). Njegova osrednja ideja je: namesto da bi model izvajal približno ujemanje v vektorskem prostoru, je bolje, da model sklepa o strukturirani predstavitvi dokumenta – odloča se, »kam pogledati«, ne pa samo »kaj je videti podobno«.
PageIndex simulira način, kako človeški strokovnjak bere dolg dokument: najprej pregleda vsebino, na podlagi vprašanja presodi ustrezna poglavja in se postopoma poglablja, dokler ne najde ciljne vsebine. Ta postopek se izvaja v dveh korakih:
- Zgradba drevesne strukture indeksa: pretvori dokument PDF/Markdown v hierarhično drevo JSON, podobno »vsebini, optimizirani za LLM«
- Sklepalno iskanje po drevesu: LLM na podlagi vprašanja izvaja sklepalno navigacijo po drevesu, locira ustrezna vozlišča, izvleče vsebino in ustvari odgovor

3. Razčlenitev osrednjih modulov
3.1 Cevovod za obdelavo PDF
Cevovod za obdelavo PDF PageIndex je urejen s funkcijo tree_parser(), osrednji postopek pa vključuje: zaznavanje vsebine (tri veje načina), dopolnjevanje predgovora, pretvorbo ploskega seznama v hierarhično drevo, rekurzivno podrobnejšo razdelitev velikih vozlišč, obogatitev vozlišč, izhod drevesne strukture JSON.
Trije načini obdelave:
- process_toc_with_page_numbers (vsebina + številke strani): LLM pretvori prvotno vsebino v strukturiran JSON, logične številke strani pa preslika v fizične številke strani
- process_no_toc (brez vsebine): LLM neposredno sklepa o hierarhični strukturi iz vsebine besedila
- process_toc_no_page_numbers (vsebina brez številk strani): ekstrahira strukturo in nato sklepa za dopolnitev fizičnih številk strani
3.2 Podatkovni model drevesne strukture
Vsako vozlišče v drevesu vključuje polja, kot so: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (polje podrejenih vozlišč) itd.
3.3 Mehanizem sklepalnega iskanja
Faza iskanja ne temelji na nobenem vektorskem izračunu. LLM prejme uporabnikovo vprašanje in strukturo drevesa dokumenta, sklepa na podlagi naslovov in povzetkov vozlišč ter izpiše svoj »miselni proces« in seznam ustreznih node_id. Sistem nato iz node_map ekstrahira celotno besedilo ustreznih vozlišč na podlagi node_id, ga združi v kontekst in ga preda LLM za ustvarjanje končnega odgovora.

4. Ključne oblikovalske prednosti
- Arhitektura brez vektorjev: ne potrebuje modela za vdelavo in vektorske baze podatkov, zmanjšuje stroške infrastrukture in poenostavlja uvajanje
- Ohranja naravno strukturo dokumenta: organizira vsebino po poglavjih/podpoglavjih/podpoglavjih, ki so lastni dokumentu, s čimer se izogne izgubi konteksta med deli (chunk)
- Razložljivost iskanja: vsako iskanje vrne celotno verigo sklepanja, kar ima očitne prednosti v scenarijih z visokimi zahtevami glede skladnosti
5. Rezultati ocenjevanja
Mafin 2.5 je sistem za odgovarjanje na vprašanja o finančnih dokumentih, ki temelji na PageIndex. Njegova uspešnost na FinanceBench (merilo QA za finančne dokumente) doseže 98,7 % natančnost, kar je precej več kot Perplexity (45 %) in GPT-4o (31 %).

6. Primerni scenariji
Primerno za: dolge dokumente z jasno hierarhično strukturo (finančna poročila, predpisi, učbeniki, priročniki), dolžine od nekaj deset do nekaj sto strani
Ni primerno za: dokumente brez strukturirane vsebine, skenirane dokumente, ki niso bili OCR, dokumente, ki temeljijo predvsem na tabelah/grafikonih, scenarije, ki zahtevajo odziv v milisekundah v realnem času
7. Povzetek
Ključni prispevek PageIndex je v predlaganju praktične paradigme RAG brez vektorjev: zgradba drevesnega indeksa z naravno strukturo dokumenta, zamenjava iskanja podobnosti vektorjev s sklepanjem LLM. Ta rešitev se odlično obnese v scenarijih strokovnih dolgih dokumentov z jasno hierarhično strukturo, razložljivost in revizijska sled pa sta bistveno boljši od tradicionalnih rešitev.





