Analiză detaliată PageIndex: RAG de tip inferențial, fără vectori, care permite AI-ului să citească documente ca un expert uman

2/15/2026
5 min read

PageIndex este un cadru RAG de tip inferențial, fără vectori, open-source de la echipa Vectify AI (GitHub 14.8k+ stele). Acesta transformă documentele lungi în indexuri arborescente ierarhice, folosind LLM pentru a efectua o căutare inferențială în arbore, atingând o precizie de 98,7% pe benchmark-ul de întrebări și răspunsuri pentru documente financiare FinanceBench.

1. Context: Cele cinci puncte slabe ale RAG-ului tradițional

RAG a devenit standardul de facto pentru aplicațiile de modele mari. Soluția principală împarte documentele în bucăți de lungime fixă (chunks) în etapa de preprocesare, le transformă în vectori prin intermediul unui model de embedding și le stochează într-o bază de date vectoriale; la interogare, efectuează același embedding pentru întrebarea utilizatorului, apoi recuperează primele K rezultate prin căutarea similarității vectoriale, concatenându-le ca context de intrare pentru LLM.

Acest proces este eficient în scenarii de text scurt și generale, dar în scenarii de documente lungi profesionale (rapoarte financiare, legi și reglementări, manuale tehnice etc.), expune cinci probleme fundamentale:

1) Similaritatea ≠ Relevanța. Căutarea vectorială presupune că „blocul de text cu cea mai mare similaritate semantică = sursa de răspuns cea mai relevantă”, dar în documentele profesionale, un număr mare de paragrafe împărtășesc o semantică similară, dar diferă în detalii cruciale.

2) Împărțirea rigidă în bucăți distruge integritatea contextului. Împărțirea documentelor în ferestre fixe de 512 sau 1024 de tokeni va trunchia propoziții, paragrafe și chiar segmente logice întregi, ducând la pierderea contextului cheie.

3) Nealinierea intenției de interogare cu spațiul de cunoștințe. Interogarea utilizatorilor exprimă „intenția”, nu „conținutul”, iar embedding-ul interogării și embedding-ul documentului se află în spații semantice diferite.

4) Incapacitatea de a gestiona referințele din document. Documentele profesionale conțin adesea referințe precum „vezi Anexa G” sau „consultați Tabelul 5.3”, iar aceste referințe și conținutul la care se referă nu au similaritate semantică, astfel încât căutarea vectorială nu le poate potrivi.

5) Interogări independente, incapacitatea de a utiliza istoricul conversațiilor. Fiecare căutare tratează interogarea ca pe o cerere independentă, incapabilă să combine contextul conversației anterioare pentru a efectua o căutare incrementală.

2. Arhitectura generală PageIndex

PageIndex este un cadru RAG fără vectori (Vectorless), bazat pe inferență (Reasoning-based). Ideea sa centrală este: în loc să lăsăm modelul să facă o potrivire aproximativă în spațiul vectorial, mai bine lăsăm modelul să raționeze asupra reprezentării structurate a documentului - să decidă „unde să se uite”, mai degrabă decât doar „ce pare similar”.

PageIndex simulează modul în care experții umani citesc documente lungi: mai întâi răsfoiesc cuprinsul, judecă capitolele relevante pe baza întrebării și aprofundează strat cu strat până când găsesc conținutul țintă. Acest proces se realizează în doi pași:

  • Construirea unui index de structură arborescentă: Transformarea documentelor PDF/Markdown într-un arbore JSON ierarhic, similar cu un „cuprins optimizat pentru LLM”
  • Căutare arborescentă inferențială: LLM navighează prin arbore pe baza întrebării, localizează nodurile relevante, extrage conținutul și generează răspunsuri

3. Descompunerea modulelor de bază

3.1 Fluxul de procesare PDF

Fluxul de procesare PDF al PageIndex este orchestrat de funcția tree_parser(), iar fluxul de bază include: detectarea cuprinsului (trei ramuri de mod), completarea prefeței, transformarea listei plate într-un arbore ierarhic, subdiviziunea recursivă a nodurilor mari, îmbogățirea nodurilor, ieșirea structurii arborescente JSON.

Trei moduri de procesare:

  • process_toc_with_page_numbers (cuprins + numere de pagină): LLM transformă cuprinsul original într-un JSON structurat, mapând numerele de pagină logice la numerele de pagină fizice
  • process_no_toc (fără cuprins): LLM deduce direct structura ierarhică din conținutul corpului textului
  • process_toc_no_page_numbers (cuprins, dar fără numere de pagină): extrage structura și apoi deduce și completează numerele de pagină fizice

3.2 Modelul de date al structurii arborescente

Fiecare nod din arbore conține câmpuri precum: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (matrice de noduri fiice) etc.

3.3 Mecanismul de căutare inferențială

Etapa de căutare nu se bazează pe niciun calcul vectorial. LLM primește întrebarea utilizatorului și structura arborescentă a documentului, raționează pe baza titlurilor și rezumatelor nodurilor și generează „procesul său de gândire” și o listă de node_id-uri relevante. Sistemul extrage apoi textul complet al nodurilor corespunzătoare din node_map pe baza node_id-urilor, le concatenează ca context și le predă LLM-ului pentru a genera răspunsul final.

4. Puncte forte ale designului de bază

  • Arhitectură fără vectori: Nu este nevoie de modele de embedding și baze de date vectoriale, reducând costurile de infrastructură și simplificând implementarea
  • Păstrează structura naturală a documentului: Organizează conținutul în funcție de capitolele/secțiunile/subcapitolele inerente documentului, evitând pierderea contextului între chunks
  • Explicabilitatea căutării: Fiecare căutare returnează un lanț de inferență complet, care are avantaje evidente în scenariile cu cerințe ridicate de conformitate

5. Rezultate de evaluare

Mafin 2.5 este un sistem de întrebări și răspunsuri pentru documente financiare bazat pe PageIndex. Performanța sa pe FinanceBench (benchmark de testare QA pentru documente financiare) atinge o precizie de 98,7%, depășind cu mult Perplexity (45%) și GPT-4o (31%).

6. Scenarii aplicabile

Potrivit pentru: Documente lungi cu o structură ierarhică clară (rapoarte financiare, reglementări, manuale, cărți didactice), cu o lungime de zeci până la sute de pagini

Nu este potrivit pentru: Documente fără conținut structurat, scanări ne-OCR-izate, documente dominate de tabele/diagrame, scenarii care necesită răspunsuri în timp real de ordinul milisecundelor

7. Concluzie

Contribuția principală a PageIndex constă în propunerea unei paradigme RAG practice, fără vectori: construirea unui index arborescent cu structura naturală a documentului și utilizarea inferenței LLM în locul căutării similarității vectoriale. Această soluție are performanțe excelente în scenarii de documente lungi profesionale cu o structură ierarhică clară, iar explicabilitatea și auditabilitatea sunt, de asemenea, semnificativ mai bune decât soluțiile tradiționale.

Published in Technology

You Might Also Like