Detaljna analiza PageIndexa: RAG bez vektora zasnovan na zaključivanju, omogućava AI-u da čita dokumente kao ljudski stručnjak

PageIndex je RAG okvir bez vektora, zasnovan na zaključivanju, otvorenog koda od strane Vectify AI tima (GitHub 14.8k+ zvjezdica). On pretvara duge dokumente u hijerarhijski indeks stabla, koristi LLM za pretraživanje zasnovano na zaključivanju na stablu i postiže 98,7% tačnosti na FinanceBench benchmarku za pitanja i odgovore o finansijskim dokumentima.

1. Pozadina: Pet bolnih tačaka tradicionalnog RAG-a

RAG je postao de facto standard za aplikacije velikih modela. Glavno rješenje je podijeliti dokumente u dijelove fiksne dužine u fazi predprocesiranja, pretvoriti ih u vektore pomoću embedding modela i pohraniti ih u vektorsku bazu podataka; prilikom pretraživanja, izvršiti isti embedding za korisničko pitanje, a zatim pozvati Top-K rezultate putem pretraživanja sličnosti vektora i spojiti ih kao ulazni kontekst za LLM.

Ovaj proces je efikasan u kratkim tekstovima i općim scenarijima, ali u scenarijima profesionalnih dugih dokumenata (finansijski izvještaji, zakoni i propisi, tehnički priručnici, itd.), otkriva pet temeljnih problema:

1) Sličnost ≠ Relevantnost. Vektorsko pretraživanje pretpostavlja da je „semantički najsličniji blok teksta = najrelevantniji izvor odgovora“, ali u profesionalnim dokumentima, veliki broj pasusa dijeli približnu semantiku, ali se u ključnim detaljima značajno razlikuju.

2) Tvrdo dijeljenje narušava integritet konteksta. Dijeljenje dokumenata u fiksne prozore od 512 ili 1024 tokena će prekinuti rečenice, pasuse, pa čak i cijele logičke segmente, što dovodi do gubitka ključnog konteksta.

3) Nepodudarnost namjere upita i prostora znanja. Korisnički upiti izražavaju „namjeru“ umjesto „sadržaja“, a query embedding i document embedding su u različitim semantičkim prostorima.

4) Nemogućnost obrade citata unutar dokumenta. U profesionalnim dokumentima su uobičajeni citati kao što su „vidi Dodatak G“ i „pogledaj tabelu 5.3“, a između ovih citata i citiranog sadržaja ne postoji semantička sličnost, pa vektorsko pretraživanje ne može da ih upari.

5) Nezavisni upiti, nemogućnost korištenja historije razgovora. Svako pretraživanje tretira upit kao nezavisan zahtjev, i ne može kombinovati kontekst prethodnog razgovora za inkrementalno pretraživanje.

2. PageIndex – Opća arhitektura

PageIndex je RAG okvir bez vektora (Vectorless), zasnovan na zaključivanju (Reasoning-based). Njegova osnovna ideja je: umjesto da model vrši približno podudaranje u vektorskom prostoru, bolje je da model vrši zaključivanje na strukturiranoj reprezentaciji dokumenta – odlučuje „gdje gledati“, umjesto samo „šta izgleda slično“.

PageIndex simulira način na koji ljudski stručnjaci čitaju duge dokumente: prvo pregledaju sadržaj, procjenjuju relevantna poglavlja na osnovu pitanja, i postepeno ulaze dublje dok ne pronađu ciljni sadržaj. Ovaj proces se postiže u dva koraka:

Izgradnja indeksa strukture stabla: Pretvaranje PDF/Markdown dokumenata u hijerarhijsko JSON stablo, slično „sadržaju optimiziranom za LLM“
Pretraživanje stabla zasnovano na zaključivanju: LLM vrši navigaciju zasnovanu na zaključivanju na stablu na osnovu pitanja, locira relevantne čvorove, izdvaja sadržaj i generiše odgovore

3. Razlaganje ključnih modula

3.1 PDF procesna linija

PDF procesna linija PageIndexa je orkestrirana funkcijom tree_parser(), a ključni proces uključuje: detekciju sadržaja (tri grane režima), dopunu predgovora, pretvaranje ravne liste u hijerarhijsko stablo, rekurzivno podjelu velikih čvorova, obogaćivanje čvorova i izlaz JSON strukture stabla.

Tri režima obrade:

process_toc_with_page_numbers (sa sadržajem + sa brojevima stranica): Koristite LLM za pretvaranje originalnog sadržaja u strukturirani JSON, mapiranje logičkih brojeva stranica na fizičke brojeve stranica
process_no_toc (bez sadržaja): LLM direktno zaključuje hijerarhijsku strukturu iz sadržaja glavnog teksta
process_toc_no_page_numbers (sa sadržajem, ali bez brojeva stranica): Izdvojite strukturu, a zatim zaključite i dopunite fizičke brojeve stranica

3.2 Model podataka strukture stabla

Svaki čvor u stablu sadrži polja kao što su: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (niz podređenih čvorova), itd.

3.3 Mehanizam pretraživanja zasnovan na zaključivanju

Faza pretraživanja se ne oslanja na nikakve vektorske proračune. LLM prima korisničko pitanje i strukturu stabla dokumenta, vrši zaključivanje na osnovu naslova čvorova i sažetaka, i izbacuje svoj „proces razmišljanja“ i listu relevantnih node_id. Sistem zatim izdvaja kompletan tekst odgovarajućih čvorova iz node_map na osnovu node_id, spaja ih kao kontekst i predaje LLM-u da generiše konačni odgovor.

4. Ključne dizajnerske prednosti

Arhitektura bez vektora: Nema potrebe za embedding modelima i vektorskim bazama podataka, smanjujući troškove infrastrukture i pojednostavljujući implementaciju
Zadržava prirodnu strukturu dokumenta: Organizuje sadržaj prema inherentnim poglavljima/odjeljcima/pododjeljcima dokumenta, izbjegavajući gubitak konteksta preko chunkova
Objašnjivost pretraživanja: Svako pretraživanje vraća kompletan lanac zaključivanja, što ima očigledne prednosti u scenarijima sa visokim zahtjevima za usklađenost

5. Rezultati evaluacije

Mafin 2.5 je sistem za pitanja i odgovore o finansijskim dokumentima zasnovan na PageIndexu. Njegov učinak na FinanceBench (benchmark test za QA o finansijskim dokumentima) dostiže 98,7% tačnosti, što je daleko više od Perplexity (45%) i GPT-4o (31%).

6. Primjenjivi scenariji

Pogodno za: Duge dokumente sa jasnom hijerarhijskom strukturom (finansijski izvještaji, propisi, udžbenici, priručnici), dužine od desetina do stotina stranica

Nije pogodno za: Dokumente bez strukturiranog sadržaja, skenirane dokumente koji nisu prošli OCR, dokumente koji se uglavnom sastoje od tabela/grafikona, scenarije koji zahtijevaju odgovor u realnom vremenu u milisekundama

7. Zaključak

Ključni doprinos PageIndexa je u predlaganju praktične paradigme RAG-a bez vektora: korištenje prirodne strukture dokumenta za izgradnju indeksa stabla, korištenje LLM zaključivanja umjesto pretraživanja sličnosti vektora. Ovo rješenje se odlično ponaša u scenarijima profesionalnih dugih dokumenata sa jasnom hijerarhijskom strukturom, a objašnjivost i mogućnost revizije su također značajno bolje od tradicionalnih rješenja.