Analizë e thellë e PageIndex: RAG i tipit të arsyetimit pa vektorë, e bën AI të lexojë dokumente si një ekspert njerëzor
PageIndex është një kornizë RAG pa vektorë, e bazuar në arsyetim, e hapur nga ekipi i Vectify AI (GitHub 14.8k+ yje). Ai konverton dokumente të gjata në një indeks të pemës hierarkike, përdor LLM për të kryer kërkim arsyetues në pemë dhe arrin një saktësi prej 98.7% në pikë referuese të pyetjeve dhe përgjigjeve të dokumenteve financiare FinanceBench.

1. Sfondi: Pesë pikat e dhimbshme të RAG tradicionale
RAG është bërë standardi de facto për aplikacionet e modeleve të mëdha. Zgjidhjet kryesore ndajnë dokumentet në copa me gjatësi fikse në fazën e parapërpunimit, i konvertojnë ato në vektorë përmes modelit të embedding, dhe i ruajnë në një bazë të dhënash vektoriale; kur kërkohet, embedding i njëjtë bëhet për pyetjen e përdoruesit, dhe më pas rezultatet Top-K rikthehen përmes kërkimit të ngjashmërisë vektoriale, dhe bashkohen si konteksti i hyrjes LLM.
Ky proces është efektiv në tekst të shkurtër dhe skenarë të përgjithshëm, por në skenarë të dokumenteve të gjata profesionale (raporte financiare, ligje dhe rregullore, manuale teknike, etj.), ai ekspozon pesë probleme themelore:
1) Ngjashmëria ≠ Rëndësia. Kërkimi vektorial supozon se "blloku i tekstit semantikisht më i ngjashëm = burimi i përgjigjes më i rëndësishëm", por në dokumente profesionale, një numër i madh paragrafësh ndajnë semantikë të përafërt, por ndryshojnë në detaje thelbësore.
2) Ndarja e fortë shkatërron plotësinë e kontekstit. Ndarja e dokumenteve sipas një dritareje fikse prej 512 ose 1024 tokenash do të ndërpresë fjalitë, paragrafët apo edhe të gjithë segmentin logjik, duke rezultuar në humbjen e kontekstit thelbësor.
3) Mospërputhje midis qëllimit të kërkimit dhe hapësirës së njohurive. Pyetja e përdoruesit shpreh një "qëllim" dhe jo "përmbajtje", dhe query embedding dhe document embedding janë në hapësira të ndryshme semantike.
4) E paaftë për të trajtuar citimet brenda dokumentit. "Shih Shtojcën G", "Referoju Tabelës 5.3" etj. janë citime të zakonshme në dokumente profesionale. Nuk ka ngjashmëri semantike midis këtyre citimeve dhe përmbajtjes së cituar, dhe kërkimi vektorial nuk mund të përputhet.
5) Kërkim i pavarur, i paaftë për të shfrytëzuar historinë e bisedës. Çdo kërkim e trajton pyetjen si një kërkesë të pavarur, dhe nuk mund të kombinohet me kontekstin e bisedës së mëparshme për të bërë kërkim progresiv.
2. Arkitektura e përgjithshme e PageIndex
PageIndex është një kornizë RAG pa vektorë (Vectorless), e bazuar në arsyetim (Reasoning-based). Ideja e tij thelbësore është: në vend që të lejojmë modelin të bëjë përputhje të përafërt në hapësirën vektoriale, është më mirë të lejojmë modelin të arsyetojë mbi përfaqësimin e strukturuar të dokumentit - të vendosë "ku të shikojë", dhe jo vetëm "çfarë duket e ngjashme".
PageIndex simulon mënyrën se si ekspertët njerëzorë lexojnë dokumente të gjata: së pari shfletoni tabelën e përmbajtjes, gjykoni kapitujt përkatës sipas pyetjes dhe thelloheni shtresë pas shtrese derisa të gjeni përmbajtjen e synuar. Ky proces realizohet në dy hapa:
- Ndërtimi i indeksit të strukturës së pemës: Konvertimi i dokumenteve PDF/Markdown në një pemë JSON hierarkike, e ngjashme me një "tabelë përmbajtjeje të optimizuar për LLM"
- Kërkimi i pemës arsyetuese: LLM kryen navigim arsyetues në pemë sipas pyetjes, lokalizon nyjet përkatëse, nxjerr përmbajtjen dhe gjeneron përgjigje

3. Çmontimi i moduleve thelbësore
3.1 Linja e përpunimit të PDF
Linja e përpunimit të PDF e PageIndex orkestrohet nga funksioni tree_parser(), dhe procesi thelbësor përfshin: zbulimin e tabelës së përmbajtjes (tre degë të modalitetit), shtimin e parathënies, konvertimin e listës së sheshtë në pemë hierarkike, ndarjen rekursive të nyjeve të mëdha, pasurimin e nyjeve dhe nxjerrjen e strukturës së pemës JSON.
Tre mënyra përpunimi:
- process_toc_with_page_numbers (ka tabelë përmbajtjeje + ka numra faqesh): LLM përdoret për të konvertuar tabelën origjinale të përmbajtjes në JSON të strukturuar dhe për të hartuar numrat e faqeve logjike në numrat e faqeve fizike
- process_no_toc (pa tabelë përmbajtjeje): LLM nxjerr drejtpërdrejt strukturën hierarkike nga përmbajtja e tekstit kryesor
- process_toc_no_page_numbers (ka tabelë përmbajtjeje por pa numra faqesh): nxirr strukturën dhe më pas nxirr dhe shto numrat e faqeve fizike
3.2 Modeli i të dhënave të strukturës së pemës
Çdo nyje në pemë përmban fusha të tilla si: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (varg i nyjeve fëmijë), etj.
3.3 Mekanizmi i kërkimit arsyetues
Faza e kërkimit nuk mbështetet në asnjë llogaritje vektoriale. LLM merr pyetjen e përdoruesit dhe strukturën e pemës së dokumentit, arsyeton bazuar në titujt dhe përmbledhjet e nyjeve dhe nxjerr "procesin e tij të mendimit" dhe listën e node_id përkatëse. Sistemi më pas nxjerr tekstin e plotë të nyjeve korresponduese nga node_map sipas node_id, e bashkon atë si kontekst dhe ia dorëzon LLM për të gjeneruar përgjigjen përfundimtare.

4. Pikat kryesore të dizajnit thelbësor
- Arkitekturë pa vektorë: Nuk ka nevojë për modele embedding dhe baza të dhënash vektoriale, duke reduktuar kostot e infrastrukturës dhe duke thjeshtuar vendosjen
- Ruajtja e strukturës natyrore të dokumentit: Organizimi i përmbajtjes sipas kapitujve/nënkapitujve/nënkapitujve të natyrshëm të dokumentit, duke shmangur humbjen e kontekstit ndër-copë
- Shpjegueshmëria e kërkimit: Çdo kërkim kthen një zinxhir të plotë arsyetimi, i cili ka avantazhe të dukshme në skenarë me kërkesa të larta për pajtueshmëri
5. Rezultatet e vlerësimit
Mafin 2.5 është një sistem pyetjesh dhe përgjigjesh të dokumenteve financiare i bazuar në PageIndex. Performanca në FinanceBench (testi pikë referuese QA i dokumenteve financiare) arrin një saktësi prej 98.7%, shumë më e lartë se Perplexity (45%) dhe GPT-4o (31%).

6. Skenarët e zbatueshëm
E përshtatshme për: Dokumente të gjata me një strukturë të qartë hierarkike (raporte financiare, rregullore, libra shkollorë, manuale), me gjatësi nga dhjetëra në qindra faqe
E papërshtatshme për: Dokumente pa përmbajtje të strukturuar, skanime të pa-OCR-uara, dokumente të dominuara nga tabela/grafikë, skenarë që kërkojnë përgjigje në kohë reale në nivel milisekondash
7. Përmbledhje
Kontributi thelbësor i PageIndex qëndron në propozimin e një paradigme praktike RAG pa vektorë: përdorimi i strukturës natyrore të dokumentit për të ndërtuar një indeks peme dhe përdorimi i arsyetimit LLM për të zëvendësuar kërkimin e ngjashmërisë vektoriale. Kjo zgjidhje performon në mënyrë të shkëlqyer në skenarë të dokumenteve të gjata profesionale me një strukturë të qartë hierarkike, dhe shpjegueshmëria dhe auditueshmëria janë gjithashtu dukshëm më të mira se zgjidhjet tradicionale.





