Anàlisi profunda de PageIndex: RAG sense vectors basat en raonament, permetent que la IA llegeixi documents com un expert humà

2/15/2026
6 min read

PageIndex és un framework RAG sense vectors i basat en raonament de codi obert de l'equip de Vectify AI (GitHub 14.8k+ estrelles). Converteix documents llargs en un índex d'arbre jeràrquic, utilitza LLM per a la recuperació basada en raonament a l'arbre i assoleix una precisió del 98,7% al benchmark de preguntes i respostes de documents financers FinanceBench.

1. Antecedents: Cinc punts febles del RAG tradicional

RAG s'ha convertit en l'estàndard de facto per a les aplicacions de models grans. La solució principal divideix el document en trossos de longitud fixa a la fase de pre-processament, els converteix en vectors mitjançant un model d'embedding i els emmagatzema en una base de dades de vectors; quan es consulta, es fa el mateix embedding per a la pregunta de l'usuari i, a continuació, es recuperen els resultats Top-K mitjançant la cerca de similitud de vectors, que es concatenen com a context d'entrada per a LLM.

Aquest flux de treball és eficaç en textos curts i escenaris generals, però en escenaris de documents llargs professionals (informes financers, lleis i regulacions, manuals tècnics, etc.), exposa cinc problemes fonamentals:

1) Similitud ≠ Rellevància. La recuperació de vectors assumeix que "el bloc de text semànticament més similar = la font de resposta més rellevant", però en documents professionals, un gran nombre de paràgrafs comparteixen una semàntica aproximada, però difereixen en detalls clau.

2) La divisió dura en blocs destrueix la integritat del context. Dividir documents en finestres fixes de 512 o 1024 tokens tallarà frases, paràgrafs i fins i tot segments lògics sencers, provocant la pèrdua de context clau.

3) Desalineació entre la intenció de la consulta i l'espai de coneixement. La consulta de l'usuari expressa "intenció" en lloc de "contingut", i l'embedding de la consulta i l'embedding del document es troben en espais semàntics diferents.

4) Incapacitat per gestionar les referències dins del document. Les referències com "vegeu l'apèndix G" i "consulteu la taula 5.3" són habituals en documents professionals. No hi ha similitud semàntica entre aquestes referències i el contingut referenciat, i la recuperació de vectors no pot coincidir.

5) Consultes independents, incapacitat per utilitzar l'historial de converses. Cada recuperació tracta la consulta com una sol·licitud independent, i no pot combinar el context de la conversa anterior per fer una recuperació progressiva.

2. Arquitectura general de PageIndex

PageIndex és un framework RAG sense vectors (Vectorless) i basat en raonament (Reasoning-based). La seva idea central és: en lloc de fer que el model faci una coincidència aproximada a l'espai vectorial, és millor que el model raoni sobre la representació estructurada del document; decidir "on mirar", en lloc de només "què sembla similar".

PageIndex simula la manera en què els experts humans llegeixen documents llargs: primer naveguen per la taula de continguts, jutgen els capítols rellevants en funció de la pregunta i aprofundeixen capa per capa fins a trobar el contingut objectiu. Aquest procés s'aconsegueix en dos passos:

  • Construir un índex d'estructura d'arbre: convertir documents PDF/Markdown en un arbre JSON jeràrquic, similar a una "taula de continguts optimitzada per a LLM"
  • Cerca d'arbre basada en raonament: LLM realitza una navegació de raonament a l'arbre en funció de la pregunta, localitza els nodes rellevants, extreu el contingut i genera la resposta

3. Descomposició dels mòduls principals

3.1 Pipeline de processament de PDF

La pipeline de processament de PDF de PageIndex està organitzada per la funció tree_parser(). El flux de treball principal inclou: detecció de la taula de continguts (tres branques de mode), complement del prefaci, conversió de la llista plana a l'arbre jeràrquic, subdivisió recursiva de nodes grans, enriquiment de nodes i sortida de l'estructura d'arbre JSON.

Tres modes de processament:

  • process_toc_with_page_numbers (amb taula de continguts + amb números de pàgina): utilitza LLM per convertir la taula de continguts original en JSON estructurat, i assigna números de pàgina lògics a números de pàgina físics
  • process_no_toc (sense taula de continguts): LLM infereix directament l'estructura jeràrquica del contingut del cos del text
  • process_toc_no_page_numbers (amb taula de continguts però sense números de pàgina): extreu l'estructura i després infereix i complementa els números de pàgina físics

3.2 Model de dades d'estructura d'arbre

Cada node de l'arbre conté camps com: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (matriu de nodes fill), etc.

3.3 Mecanisme de recuperació basat en raonament

La fase de recuperació no depèn de cap càlcul vectorial. LLM rep la pregunta de l'usuari i l'estructura d'arbre del document, raona basant-se en el títol i el resum del node i genera el seu "procés de pensament" i la llista de node_id rellevants. A continuació, el sistema extreu el text complet del node corresponent de node_map segons el node_id, el concatena com a context i el lliura a LLM per generar la resposta final.

4. Aspectes destacats del disseny principal

  • Arquitectura sense vectors: no necessita un model d'embedding ni una base de dades de vectors, redueix els costos d'infraestructura i simplifica el desplegament
  • Conserva l'estructura natural del document: organitza el contingut per capítols/seccions/subseccions inherents al document, evitant la pèrdua de context entre trossos
  • Explicabilitat de la recuperació: cada recuperació retorna una cadena de raonament completa, que té avantatges evidents en escenaris amb alts requisits de compliment

5. Resultats de l'avaluació

Mafin 2.5 és un sistema de preguntes i respostes de documents financers basat en PageIndex. El rendiment a FinanceBench (benchmark de QA de documents financers) assoleix una precisió del 98,7%, superant amb escreix Perplexity (45%) i GPT-4o (31%).

6. Escenaris aplicables

Adequat per a: documents llargs amb una estructura jeràrquica clara (informes financers, regulacions, llibres de text, manuals), amb una longitud de desenes a centenars de pàgines

No adequat per a: documents sense contingut estructurat, documents escanejats sense OCR, documents basats principalment en taules/gràfics, escenaris que requereixen una resposta en temps real a nivell de mil·lisegons

7. Resum

La contribució principal de PageIndex rau en la proposta d'un paradigma RAG sense vectors pràctic: utilitzar l'estructura natural del document per construir un índex d'arbre i utilitzar el raonament LLM per substituir la cerca de similitud de vectors. Aquesta solució funciona excel·lentment en escenaris de documents llargs professionals amb una estructura jeràrquica clara, i l'explicabilitat i l'auditabilitat també són significativament millors que les solucions tradicionals.

Published in Technology

You Might Also Like