Analyse approfondie de PageIndex : RAG sans vecteurs basé sur le raisonnement, permettant à l'IA de lire des documents comme un expert humain

2/15/2026
6 min read

PageIndex est un framework RAG sans vecteurs, basé sur le raisonnement, open source par l'équipe Vectify AI (GitHub 14.8k+ stars). Il transforme les longs documents en un index arborescent hiérarchique, utilise un LLM pour effectuer une recherche par raisonnement dans l'arbre, et atteint une précision de 98,7 % sur le benchmark de questions-réponses sur des documents financiers FinanceBench.

1. Contexte : Les cinq points faibles du RAG traditionnel

RAG est devenu la norme de facto pour les applications de grands modèles. La solution dominante consiste à diviser les documents en chunks de longueur fixe lors de la phase de prétraitement, à les convertir en vecteurs à l'aide d'un modèle d'embedding, et à les stocker dans une base de données vectorielle ; lors de la requête, on effectue le même embedding sur la question de l'utilisateur, puis on rappelle les Top-K résultats par recherche de similarité vectorielle, et on les concatène pour former le contexte d'entrée du LLM.

Ce processus est efficace pour les textes courts et les scénarios généraux, mais dans les scénarios de documents longs et spécialisés (rapports financiers, lois et règlements, manuels techniques, etc.), il révèle cinq problèmes fondamentaux :

1) Similarité ≠ Pertinence. La recherche vectorielle suppose que « le bloc de texte sémantiquement le plus similaire = la source de réponse la plus pertinente », mais dans les documents spécialisés, de nombreux paragraphes partagent une sémantique approximative mais diffèrent considérablement dans les détails clés.

2) Le découpage rigide détruit l'intégrité du contexte. La division des documents en fenêtres fixes de 512 ou 1024 tokens tronque les phrases, les paragraphes et même des sections logiques entières, entraînant la perte du contexte clé.

3) Décalage entre l'intention de la requête et l'espace de connaissances. La requête de l'utilisateur exprime une « intention » plutôt qu'un « contenu », et l'embedding de la query et l'embedding du document se trouvent dans des espaces sémantiques différents.

4) Incapacité à traiter les références dans le document. Les documents spécialisés contiennent souvent des références telles que « voir l'annexe G » ou « se référer au tableau 5.3 », et il n'existe aucune similarité sémantique entre ces références et le contenu référencé, ce qui rend la recherche vectorielle incapable de les faire correspondre.

5) Requêtes indépendantes, incapacité à exploiter l'historique des conversations. Chaque recherche considère la query comme une requête indépendante, incapable de combiner le contexte de la conversation précédente pour effectuer une recherche progressive.

2. Architecture globale de PageIndex

PageIndex est un framework RAG sans vecteurs (Vectorless), basé sur le raisonnement (Reasoning-based). Son idée centrale est la suivante : plutôt que de laisser le modèle effectuer une correspondance approximative dans l'espace vectoriel, il est préférable de laisser le modèle raisonner sur la représentation structurée du document - décider « où regarder », plutôt que simplement « ce qui semble similaire ».

PageIndex simule la façon dont un expert humain lit un long document : il parcourt d'abord la table des matières, détermine les chapitres pertinents en fonction de la question, et approfondit progressivement jusqu'à ce qu'il trouve le contenu cible. Ce processus est réalisé en deux étapes :

  • Construction d'un index arborescent : Convertir un document PDF/Markdown en un arbre JSON hiérarchique, similaire à une « table des matières optimisée pour LLM »
  • Recherche arborescente par raisonnement : LLM effectue une navigation par raisonnement dans l'arbre en fonction de la question, localise les nœuds pertinents, extrait le contenu et génère la réponse

3. Décomposition des modules principaux

3.1 Pipeline de traitement PDF

La pipeline de traitement PDF de PageIndex est orchestrée par la fonction tree_parser(), et le flux principal comprend : la détection de la table des matières (trois branches de mode), l'ajout d'un avant-propos, la conversion d'une liste plate en un arbre hiérarchique, la subdivision récursive des grands nœuds, l'enrichissement des nœuds et la sortie de la structure arborescente JSON.

Trois modes de traitement :

  • process_toc_with_page_numbers (avec table des matières + avec numéros de page) : Utiliser LLM pour convertir la table des matières originale en JSON structuré, et mapper les numéros de page logiques aux numéros de page physiques
  • process_no_toc (sans table des matières) : LLM déduit directement la structure hiérarchique du contenu du corps du texte
  • process_toc_no_page_numbers (avec table des matières mais sans numéros de page) : Extraire la structure puis déduire et compléter les numéros de page physiques

3.2 Modèle de données de structure arborescente

Chaque nœud de l'arbre contient les champs suivants : title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (tableau de nœuds enfants), etc.

3.3 Mécanisme de recherche par raisonnement

La phase de recherche ne dépend d'aucun calcul vectoriel. LLM reçoit la question de l'utilisateur et la structure arborescente du document, effectue un raisonnement basé sur les titres et les résumés des nœuds, et affiche son « processus de pensée » et une liste de node_id pertinents. Le système extrait ensuite le texte complet des nœuds correspondants de la node_map en fonction du node_id, le concatène pour former le contexte et le transmet à LLM pour générer la réponse finale.

4. Points forts de la conception principale

  • Architecture sans vecteurs : Pas besoin de modèle d'embedding ni de base de données vectorielle, ce qui réduit les coûts d'infrastructure et simplifie le déploiement
  • Préservation de la structure naturelle du document : Organiser le contenu par chapitres/sections/sous-sections inhérents au document, en évitant la perte de contexte entre les chunks
  • Interprétabilité de la recherche : Chaque recherche renvoie une chaîne de raisonnement complète, ce qui présente un avantage évident dans les scénarios où les exigences de conformité sont élevées

5. Résultats de l'évaluation

Mafin 2.5 est un système de questions-réponses sur des documents financiers basé sur PageIndex. Ses performances sur FinanceBench (benchmark de QA sur des documents financiers) atteignent une précision de 98,7 %, ce qui est bien supérieur à Perplexity (45 %) et GPT-4o (31 %).

6. Scénarios d'application

Convient pour : Les longs documents avec une structure hiérarchique claire (rapports financiers, réglementations, manuels, guides), d'une longueur de plusieurs dizaines à plusieurs centaines de pages

Ne convient pas pour : Les documents sans contenu structuré, les documents numérisés non OCRisés, les documents principalement constitués de tableaux/graphiques, les scénarios nécessitant une réponse en temps réel en millisecondes

7. Conclusion

La contribution principale de PageIndex réside dans la proposition d'un paradigme RAG sans vecteurs pratique : utiliser la structure naturelle du document pour construire un index arborescent, et remplacer la recherche de similarité vectorielle par le raisonnement LLM. Cette solution fonctionne exceptionnellement bien dans les scénarios de documents longs et spécialisés avec une structure hiérarchique claire, et son interprétabilité et son auditabilité sont également nettement supérieures aux solutions traditionnelles.

Published in Technology

You Might Also Like