PageIndex Detaljna analiza: RAG bez vektora zasnovan na zaključivanju, omogućava AI da čita dokumente kao ljudski stručnjak
PageIndex je RAG okvir bez vektora, zasnovan na zaključivanju, otvorenog koda od strane Vectify AI tima (GitHub 14.8k+ zvezda). On transformiše dugačke dokumente u hijerarhijski indeks stabla, koristi LLM za pretraživanje zasnovano na zaključivanju na stablu i postiže tačnost od 98,7% na FinanceBench benchmarku za pitanja i odgovore o finansijskim dokumentima.

1. Pozadina: Pet bolnih tačaka tradicionalnog RAG-a
RAG je postao de facto standard za aplikacije velikih modela. Glavni pristup je da se u fazi predprocesiranja dokumenti podele na delove fiksne dužine (chunk), transformišu u vektore pomoću embedding modela i uskladište u vektorskoj bazi podataka; prilikom upita, isto embedding se primenjuje na korisničko pitanje, a zatim se preuzimaju Top-K rezultati putem pretrage sličnosti vektora, koji se spajaju kao ulazni kontekst za LLM.
Ovaj proces je efikasan za kratke tekstove i opšte scenarije, ali u scenarijima profesionalnih dugačkih dokumenata (finansijski izveštaji, zakoni i propisi, tehnički priručnici, itd.), otkriva pet fundamentalnih problema:
1) Sličnost ≠ Relevantnost. Vektorska pretraga pretpostavlja da je „semantički najsličniji blok teksta = najrelevantniji izvor odgovora“, ali u profesionalnim dokumentima, veliki broj pasusa deli približnu semantiku, ali se značajno razlikuje u ključnim detaljima.
2) Tvrdo deljenje narušava integritet konteksta. Deljenje dokumenta u fiksne prozore od 512 ili 1024 tokena preseca rečenice, pasuse, pa čak i cele logičke segmente, što dovodi do gubitka ključnog konteksta.
3) Nepodudarnost namere upita i prostora znanja. Korisnički upit izražava „nameru“, a ne „sadržaj“, tako da su query embedding i document embedding u različitim semantičkim prostorima.
4) Nemogućnost obrade referenci unutar dokumenta. U profesionalnim dokumentima su česte reference kao što su „videti dodatak G“, „pogledati tabelu 5.3“, itd. Između ovih referenci i referenciranog sadržaja ne postoji semantička sličnost, pa vektorska pretraga ne može da ih upari.
5) Nezavisni upiti, nemogućnost korišćenja istorije razgovora. Svaka pretraga tretira upit kao nezavisan zahtev, pa ne može da kombinuje kontekst prethodnog razgovora za inkrementalnu pretragu.
2. PageIndex Opšta arhitektura
PageIndex je RAG okvir bez vektora (Vectorless), zasnovan na zaključivanju (Reasoning-based). Njegova osnovna ideja je: umesto da model vrši približno podudaranje u vektorskom prostoru, bolje je da model zaključuje na strukturiranoj reprezentaciji dokumenta – da odluči „gde da gleda“, a ne samo „šta izgleda slično“.
PageIndex simulira način na koji ljudski stručnjaci čitaju dugačke dokumente: prvo pregledaju sadržaj, procenjuju relevantna poglavlja na osnovu pitanja, i postepeno ulaze dublje dok ne pronađu ciljni sadržaj. Ovaj proces se postiže u dva koraka:
- Konstruisanje indeksa strukture stabla: Konvertovanje PDF/Markdown dokumenata u hijerarhijsko JSON stablo, slično „sadržaju optimizovanom za LLM“
- Pretraga stabla zasnovana na zaključivanju: LLM vrši navigaciju zasnovanu na zaključivanju na stablu na osnovu pitanja, locira relevantne čvorove, ekstrahuje sadržaj i generiše odgovore

3. Razlaganje ključnih modula
3.1 PDF obrada
PageIndex-ova PDF obrada je orkestrirana funkcijom tree_parser(), a ključni proces uključuje: detekciju sadržaja (tri režima grananja), dopunu predgovora, konverziju ravne liste u hijerarhijsko stablo, rekurzivno deljenje velikih čvorova, obogaćivanje čvorova i izlaz JSON strukture stabla.
Tri režima obrade:
- process_toc_with_page_numbers (sadržaj + brojevi stranica): Koristi LLM za konvertovanje originalnog sadržaja u strukturirani JSON, mapirajući logičke brojeve stranica na fizičke brojeve stranica
- process_no_toc (bez sadržaja): LLM direktno zaključuje hijerarhijsku strukturu iz sadržaja glavnog teksta
- process_toc_no_page_numbers (sadržaj ali bez brojeva stranica): Ekstrahuje strukturu, a zatim zaključuje i dopunjuje fizičke brojeve stranica
3.2 Model podataka strukture stabla
Svaki čvor u stablu sadrži polja kao što su: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (niz podređenih čvorova), itd.
3.3 Mehanizam pretrage zasnovan na zaključivanju
Faza pretrage se ne oslanja na nikakve vektorske proračune. LLM prima korisničko pitanje i strukturu stabla dokumenta, zaključuje na osnovu naslova čvorova i rezimea, i izbacuje svoj „proces razmišljanja“ i listu relevantnih node_id. Sistem zatim ekstrahuje kompletan tekst odgovarajućih čvorova iz node_map na osnovu node_id, spaja ga kao kontekst i predaje LLM-u da generiše konačni odgovor.

4. Ključne dizajnerske prednosti
- Arhitektura bez vektora: Nema potrebe za embedding modelima i vektorskim bazama podataka, smanjujući troškove infrastrukture i pojednostavljujući implementaciju
- Zadržava prirodnu strukturu dokumenta: Organizuje sadržaj prema inherentnim poglavljima/odeljcima/pododeljcima dokumenta, izbegavajući gubitak konteksta preko chunk-ova
- Objašnjivost pretrage: Svaka pretraga vraća kompletan lanac zaključivanja, što ima očigledne prednosti u scenarijima sa visokim zahtevima za usklađenost
5. Rezultati evaluacije
Mafin 2.5 je sistem za pitanja i odgovore o finansijskim dokumentima zasnovan na PageIndex-u. Njegov učinak na FinanceBench (benchmark test za QA o finansijskim dokumentima) dostiže tačnost od 98,7%, što je daleko više od Perplexity (45%) i GPT-4o (31%).

6. Primena
Pogodno za: Dugačke dokumente sa jasnom hijerarhijskom strukturom (finansijski izveštaji, propisi, udžbenici, priručnici), dužine od desetina do stotina stranica
Nije pogodno za: Dokumente bez strukturiranog sadržaja, skenirane dokumente bez OCR-a, dokumente koji se uglavnom sastoje od tabela/grafikona, scenarije koji zahtevaju odgovor u realnom vremenu u milisekundama
7. Zaključak
Ključni doprinos PageIndex-a je u predlaganju praktične RAG paradigme bez vektora: korišćenje prirodne strukture dokumenta za izgradnju indeksa stabla, korišćenje LLM zaključivanja umesto pretrage sličnosti vektora. Ovo rešenje se odlično pokazalo u scenarijima profesionalnih dugačkih dokumenata sa jasnom hijerarhijskom strukturom, a objašnjivost i mogućnost revizije su takođe značajno bolje od tradicionalnih rešenja.





