PageIndex Detaljna Analiza: RAG Bez Vektora Temeljen na Zaključivanju, Omogućuje AI-ju Čitanje Dokumenata Poput Ljudskih Stručnjaka

PageIndex je RAG okvir bez vektora, temeljen na zaključivanju, otvorenog koda od strane Vectify AI tima (GitHub 14.8k+ zvjezdica). Pretvara duge dokumente u hijerarhijsko stablo indeksa, koristeći LLM za pretraživanje temeljeno na zaključivanju na stablu, postižući 98.7% točnosti na FinanceBench benchmarku za pitanja i odgovore o financijskim dokumentima.

1. Pozadina: Pet Bolnih Točaka Tradicionalnog RAG-a

RAG je postao de facto standard za primjenu velikih modela. Glavno rješenje u fazi predobrade dijeli dokumente na dijelove fiksne duljine (chunk), pretvara ih u vektore pomoću embedding modela i pohranjuje u vektorsku bazu podataka; prilikom upita, vrši se isti embedding za korisničko pitanje, a zatim se pomoću vektorske sličnosti preuzimaju Top-K rezultati, koji se spajaju u ulazni kontekst za LLM.

Ovaj proces je učinkovit u kratkim tekstovima i općim scenarijima, ali u scenarijima profesionalnih dugih dokumenata (financijska izvješća, zakoni i propisi, tehnički priručnici itd.), otkriva pet temeljnih problema:

1) Sličnost ≠ Relevantnost. Vektorsko pretraživanje pretpostavlja da je "semantički najsličniji blok teksta = najrelevantniji izvor odgovora", ali u profesionalnim dokumentima, veliki broj odlomaka dijeli približnu semantiku, ali se u ključnim detaljima značajno razlikuju.

2) Tvrdo dijeljenje narušava cjelovitost konteksta. Dijeljenje dokumenata u fiksne prozore od 512 ili 1024 tokena prekida rečenice, odlomke, pa čak i cijele logičke odlomke, što dovodi do gubitka ključnog konteksta.

3) Nepodudarnost namjere upita i prostora znanja. Korisnički upiti izražavaju "namjeru", a ne "sadržaj", a query embedding i document embedding nalaze se u različitim semantičkim prostorima.

4) Nemogućnost obrade referenci unutar dokumenta. U profesionalnim dokumentima uobičajene su reference poput "vidi Dodatak G", "vidi Tablicu 5.3" itd. Između ovih referenci i referiranog sadržaja ne postoji semantička sličnost, pa vektorsko pretraživanje ne može pronaći podudarnost.

5) Neovisni upiti, nemogućnost korištenja povijesti razgovora. Svako pretraživanje tretira upit kao neovisni zahtjev, ne može kombinirati kontekst prethodnog razgovora za postupno pretraživanje.

2. PageIndex Ukupna Arhitektura

PageIndex je RAG okvir bez vektora (Vectorless), temeljen na zaključivanju (Reasoning-based). Njegova je temeljna ideja: umjesto da model vrši približno podudaranje u vektorskom prostoru, bolje je da model zaključuje na strukturiranom prikazu dokumenta - odlučuje "gdje gledati", umjesto samo "što izgleda slično".

PageIndex simulira način na koji ljudski stručnjaci čitaju duge dokumente: prvo pregledavaju sadržaj, na temelju pitanja procjenjuju relevantna poglavlja, postupno ulazeći dublje dok ne pronađu ciljni sadržaj. Ovaj se proces postiže u dva koraka:

Izgradnja indeksa strukture stabla: pretvaranje PDF/Markdown dokumenata u hijerarhijsko JSON stablo, slično "sadržaju optimiziranom za LLM"
Pretraživanje stabla temeljeno na zaključivanju: LLM zaključuje i navigira stablom na temelju pitanja, locira relevantne čvorove, izdvaja sadržaj i generira odgovore

3. Rastavljanje Ključnih Modula

3.1 PDF Procesna Linija

PageIndex PDF procesna linija je uređena funkcijom tree_parser(), a ključni proces uključuje: detekciju sadržaja (tri grane načina rada), dopunu predgovora, pretvaranje ravnog popisa u hijerarhijsko stablo, rekurzivno dijeljenje velikih čvorova, obogaćivanje čvorova, izlaz JSON strukture stabla.

Tri načina obrade:

process_toc_with_page_numbers (sadržaj + brojevi stranica): koristi LLM za pretvaranje izvornog sadržaja u strukturirani JSON, mapiranje logičkih brojeva stranica na fizičke brojeve stranica
process_no_toc (bez sadržaja): LLM izravno zaključuje hijerarhijsku strukturu iz sadržaja glavnog teksta
process_toc_no_page_numbers (sadržaj, ali bez brojeva stranica): izdvaja strukturu, a zatim zaključuje i dopunjuje fizičke brojeve stranica

3.2 Model Podataka Strukture Stabla

Svaki čvor u stablu sadrži polja kao što su: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (niz podređenih čvorova) itd.

3.3 Mehanizam Pretraživanja Temeljen na Zaključivanju

Faza pretraživanja ne ovisi o bilo kakvim vektorskim izračunima. LLM prima korisničko pitanje i strukturu stabla dokumenta, zaključuje na temelju naslova čvorova i sažetaka, te ispisuje svoj "proces razmišljanja" i popis relevantnih node_id-ova. Sustav zatim izdvaja puni tekst odgovarajućih čvorova iz node_map na temelju node_id-ova, spaja ih u kontekst i predaje LLM-u za generiranje konačnog odgovora.

4. Ključne Prednosti Dizajna

Arhitektura bez vektora: Nisu potrebni embedding modeli i vektorske baze podataka, smanjujući troškove infrastrukture i pojednostavljujući implementaciju
Zadržava prirodnu strukturu dokumenta: Organizira sadržaj prema inherentnim poglavljima/odjeljcima/pododjeljcima dokumenta, izbjegavajući gubitak konteksta preko chunkova
Objašnjivost pretraživanja: Svako pretraživanje vraća potpuni lanac zaključivanja, što ima jasne prednosti u scenarijima s visokim zahtjevima za usklađenost

5. Rezultati Procjene

Mafin 2.5 je sustav za pitanja i odgovore o financijskim dokumentima temeljen na PageIndexu. Njegova izvedba na FinanceBenchu (benchmark test za QA financijskih dokumenata) doseže 98.7% točnosti, što je daleko više od Perplexity (45%) i GPT-4o (31%).

6. Primjenjivi Scenariji

Pogodno za: Duge dokumente s jasnom hijerarhijskom strukturom (financijska izvješća, propisi, udžbenici, priručnici), duljine od desetaka do stotina stranica

Nije pogodno za: Dokumente bez strukturiranog sadržaja, skenirane dokumente koji nisu prošli OCR, dokumente koji se uglavnom sastoje od tablica/grafikona, scenarije koji zahtijevaju odziv u milisekundama

7. Zaključak

Ključni doprinos PageIndexa je u tome što predlaže praktičnu paradigmu RAG-a bez vektora: izgradnja indeksa stabla s prirodnom strukturom dokumenta, zamjena vektorskog pretraživanja sličnosti LLM zaključivanjem. Ovo rješenje se ističe u scenarijima profesionalnih dugih dokumenata s jasnom hijerarhijskom strukturom, a objašnjivost i mogućnost revizije također su značajno bolji od tradicionalnih rješenja.