PageIndexi süvaanalüüs: Vektorivaba järelduslik RAG, mis võimaldab tehisintellektil lugeda dokumente nagu inimspetsialist

PageIndex on Vectify AI meeskonna avatud lähtekoodiga vektorivaba, järelduslik RAG raamistik (GitHub 14.8k+ tärni). See teisendab pikad dokumendid hierarhiliseks puuindeksiks ja kasutab LLM-i puul järelduslikuks otsinguks, saavutades FinanceBenchi finantsdokumentide küsimuste ja vastuste võrdlusalusel 98,7% täpsuse.

1. Taust: Traditsioonilise RAG viis valupunkti

RAG on muutunud suurte mudelite rakenduste de facto standardiks. Peavoolu lahendused jagavad eeltöötlusetapis dokumendid fikseeritud pikkusega tükkideks (chunk), teisendavad need embedding mudeli abil vektoriteks ja salvestavad vektorandmebaasi; päringu korral tehakse kasutaja küsimusele sama embedding ja seejärel kutsutakse vektorite sarnasuse otsingu abil tagasi Top-K tulemused, mis ühendatakse LLM-i sisendkontekstiks.

See protsess on tõhus lühitekstide ja üldiste stsenaariumide puhul, kuid professionaalsete pikkade dokumentide (finantsaruanded, seadused ja määrused, tehnilised juhendid jne) stsenaariumide puhul ilmnevad viis põhimõttelist probleemi:

1) Sarnasus ≠ Seos. Vektorotsing eeldab, et "semantiliselt kõige sarnasem tekstiplokk = kõige asjakohasem vastuse allikas", kuid professionaalsetes dokumentides jagavad paljud lõigud ligikaudset semantikat, kuid erinevad olulistes detailides.

2) Jäik tükeldamine hävitab konteksti terviklikkuse. Dokumentide jagamine fikseeritud 512 või 1024 tokeni aknaga katkestab lauseid, lõike ja isegi terveid loogilisi lõike, mis põhjustab olulise konteksti kadumise.

3) Päringu kavatsus ja teadmusruum on valesti joondatud. Kasutajate päringud väljendavad "kavatsust" mitte "sisu", query embedding ja document embedding asuvad erinevates semantilistes ruumides.

4) Ei saa käsitleda dokumentide sisemisi viiteid. Professionaalsetes dokumentides on tavalised viited nagu "vt lisa G", "vt tabel 5.3" jne. Nende viidete ja viidatud sisu vahel puudub semantiline sarnasus, vektorotsing ei suuda neid sobitada.

5) Sõltumatud päringud, ei saa kasutada vestluse ajalugu. Iga otsing käsitleb päringut sõltumatu taotlusena, ei saa kombineerida eelmise vestluse konteksti, et teha järkjärgulist otsingut.

2. PageIndexi üldine arhitektuur

PageIndex on vektorivaba (Vectorless), järelduspõhine (Reasoning-based) RAG raamistik. Selle peamine idee on: selle asemel, et lasta mudelil teha vektorruumis ligikaudset sobitamist, on parem lasta mudelil järeldada dokumendi struktureeritud esitusel – otsustada, "kuhu vaadata", mitte ainult "mis tundub sarnane".

PageIndex simuleerib inimspetsialistide pikkade dokumentide lugemise viisi: kõigepealt sirvitakse sisukorda, otsustatakse küsimuse põhjal asjakohased peatükid ja süvenetakse kiht-kihilt, kuni leitakse sihtsisu. See protsess saavutatakse kahes etapis:

Puu struktuuri indeksi loomine: teisendab PDF/Markdown dokumendid hierarhiliseks JSON puuks, mis sarnaneb "LLM-i jaoks optimeeritud sisukorraga"
Järelduslik puuotsing: LLM navigeerib küsimuse põhjal puul järelduste abil, et leida asjakohased sõlmed, eraldada sisu ja genereerida vastuseid

3. Põhimoodulite lahtivõtmine

3.1 PDF-i töötlemise konveier

PageIndexi PDF-i töötlemise konveieri korraldab funktsioon tree_parser(), mille peamised etapid on: sisukorra tuvastamine (kolm režiimi haru), eessõna täiendamine, lameda loendi teisendamine hierarhiliseks puuks, suurte sõlmede rekursiivne jagamine, sõlmede rikastamine, JSON puu struktuuri väljund.

Kolm töötlemisrežiimi:

process_toc_with_page_numbers (sisukord + leheküljenumbrid): kasutab LLM-i algse sisukorra teisendamiseks struktureeritud JSON-iks, mis kaardistab loogilised leheküljenumbrid füüsilistele leheküljenumbritele
process_no_toc (sisukord puudub): LLM tuletab hierarhilise struktuuri otse põhiteksti sisust
process_toc_no_page_numbers (sisukord on olemas, kuid leheküljenumbreid pole): ekstraheerib struktuuri ja seejärel tuletab ja täiendab füüsilisi leheküljenumbreid

3.2 Puu struktuuri andmemudel

Puu iga sõlm sisaldab järgmisi välju: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (alamõlmede massiiv) jne.

3.3 Järelduslik otsingumehhanism

Otsinguetapp ei sõltu ühestki vektorarvutusest. LLM saab kasutaja küsimuse ja dokumendipuu struktuuri, teeb sõlmede pealkirjade ja kokkuvõtete põhjal järeldusi ning väljastab oma "mõtteprotsessi" ja asjakohaste node_id-de loendi. Seejärel eraldab süsteem node_id põhjal vastava sõlme täieliku teksti node_map-ist, ühendab selle kontekstiks ja annab LLM-ile lõpliku vastuse genereerimiseks.

4. Põhilised disaini esiletõstmised

Vektorivaba arhitektuur: pole vaja embedding mudelit ja vektorandmebaasi, mis vähendab infrastruktuuri kulusid ja lihtsustab juurutamist
Säilitab dokumendi loomuliku struktuuri: korraldab sisu vastavalt dokumendi omastele peatükkidele/alajaotistele/alampeatükkidele, vältides konteksti kadu üle tükkide
Otsingu seletatavus: iga otsing tagastab täieliku järeldusahela, millel on selge eelis nõuetele vastavuse kõrgete nõuetega stsenaariumides

5. Hindamistulemused

Mafin 2.5 on PageIndexil põhinev finantsdokumentide küsimuste ja vastuste süsteem. Selle jõudlus FinanceBenchil (finantsdokumentide QA võrdlustest) ulatub 98,7% täpsuseni, mis on palju suurem kui Perplexity (45%) ja GPT-4o (31%).

6. Sobivad stsenaariumid

Sobib: selge hierarhilise struktuuriga pikad dokumendid (finantsaruanded, seadused ja määrused, õppematerjalid, juhendid), pikkusega kümnetest kuni sadade lehekülgedeni

Ei sobi: struktureerimata sisuga dokumendid, OCR-ita skaneeritud dokumendid, tabelite/diagrammide põhised dokumendid, stsenaariumid, mis nõuavad millisekundilist reaalajas reageerimist

7. Kokkuvõte

PageIndexi peamine panus on praktilise vektorivaba RAG paradigma väljapakumine: dokumendi loomuliku struktuuri abil puuindeksi loomine ja LLM-i järelduste kasutamine vektorite sarnasuse otsingu asendamiseks. See lahendus toimib suurepäraselt selge hierarhilise struktuuriga professionaalsete pikkade dokumentide stsenaariumides ning seletatavus ja auditeeritavus on samuti oluliselt paremad kui traditsioonilistel lahendustel.

PageIndexi süvaanalüüs: Vektorivaba järelduslik RAG, mis võimaldab tehisintellektil lugeda dokumente nagu inimspetsialist

1. Taust: Traditsioonilise RAG viis valupunkti

2. PageIndexi üldine arhitektuur

3. Põhimoodulite lahtivõtmine

3.1 PDF-i töötlemise konveier

3.2 Puu struktuuri andmemudel

3.3 Järelduslik otsingumehhanism

4. Põhilised disaini esiletõstmised

5. Hindamistulemused

6. Sobivad stsenaariumid

7. Kokkuvõte

You Might Also Like

Claude Code Buddy muutmise juhend: Kuidas saada sädelevat legendaarset lemmiklooma

Obsidian tutvustas Defuddle'i, viies Obsidian Web Clipperi uuele tasemele

OpenAI üllatavalt kuulutas välja "kolme ühes": brauser + programmeerimine + ChatGPT ühinemine, siseinfo tunnistab, et eelmisel aastal tehti valeotsuseid

2026, ära sunni end "distsipliini"! Tee need 8 väikest asja, tervis tuleb loomulikult

Need emad, kes püüavad kaalust alla võtta, kuid ei saa seda teha, on kindlasti siin kinni jäänud

AI Brauser 24 tunni stabiilse töö juhend