Analyse approfondie de PageIndex : RAG sans vecteurs basé sur le raisonnement, permettant à l'IA de lire des documents comme un expert humain
PageIndex est un framework RAG sans vecteurs, basé sur le raisonnement, open source par l'équipe Vectify AI (GitHub 14.8k+ stars). Il convertit les longs documents en un index arborescent hiérarchique, utilise un LLM pour effectuer une recherche par raisonnement sur l'arbre et atteint une précision de 98,7 % sur le benchmark de questions-réponses sur des documents financiers FinanceBench.

1. Contexte : Les cinq points faibles du RAG traditionnel
RAG est devenu la norme de facto pour les applications de grands modèles. La solution dominante consiste à diviser les documents en chunks de longueur fixe lors de la phase de prétraitement, à les convertir en vecteurs via un modèle d'embedding et à les stocker dans une base de données vectorielle ; lors de la requête, l'embedding de la question de l'utilisateur est effectué de la même manière, puis les résultats Top-K sont rappelés par recherche de similarité vectorielle et concaténés en tant que contexte d'entrée du LLM.
Ce processus est efficace pour les textes courts et les scénarios généraux, mais dans les scénarios de documents longs et spécialisés (rapports financiers, lois et réglementations, manuels techniques, etc.), il expose cinq problèmes fondamentaux :
1) Similarité ≠ Pertinence. La recherche vectorielle suppose que « le bloc de texte sémantiquement le plus similaire = la source de réponse la plus pertinente », mais dans les documents spécialisés, un grand nombre de paragraphes partagent une sémantique approximative mais diffèrent considérablement dans les détails clés.
2) La division en chunks rigides détruit l'intégrité du contexte. La division des documents en fenêtres fixes de 512 ou 1024 tokens tronque les phrases, les paragraphes et même des sections logiques entières, entraînant une perte de contexte crucial.
3) Décalage entre l'intention de la requête et l'espace de connaissances. La requête de l'utilisateur exprime une « intention » plutôt qu'un « contenu », et l'embedding de la query et l'embedding du document se trouvent dans des espaces sémantiques différents.
4) Incapacité à traiter les références dans le document. Les documents spécialisés contiennent souvent des références telles que « voir l'annexe G », « se référer au tableau 5.3 », etc. Il n'existe pas de similarité sémantique entre ces références et le contenu référencé, et la recherche vectorielle ne peut pas les faire correspondre.
5) Requêtes indépendantes, incapacité à exploiter l'historique des conversations. Chaque recherche considère la query comme une requête indépendante, incapable de combiner le contexte de la conversation précédente pour effectuer une recherche progressive.
2. Architecture globale de PageIndex
PageIndex est un framework RAG sans vecteurs (Vectorless), basé sur le raisonnement (Reasoning-based). Son idée centrale est la suivante : plutôt que de laisser le modèle effectuer une correspondance approximative dans l'espace vectoriel, il est préférable de laisser le modèle raisonner sur la représentation structurée du document - décider « où regarder », plutôt que simplement « ce qui semble similaire ».
PageIndex simule la façon dont un expert humain lit un long document : il parcourt d'abord la table des matières, détermine les chapitres pertinents en fonction de la question, puis approfondit progressivement jusqu'à ce qu'il trouve le contenu cible. Ce processus est réalisé en deux étapes :
- Construction d'un index de structure arborescente : Convertir les documents PDF/Markdown en un arbre JSON hiérarchique, similaire à une « table des matières optimisée pour LLM »
- Recherche arborescente par raisonnement : LLM effectue une navigation par raisonnement sur l'arbre en fonction de la question, localise les nœuds pertinents, extrait le contenu et génère des réponses

3. Décomposition des modules principaux
3.1 Pipeline de traitement PDF
La pipeline de traitement PDF de PageIndex est orchestrée par la fonction tree_parser(), et le processus principal comprend : la détection de la table des matières (trois branches de mode), l'ajout d'un avant-propos, la conversion d'une liste plate en arbre hiérarchique, la subdivision récursive des grands nœuds, l'enrichissement des nœuds et la sortie de la structure arborescente JSON.
Trois modes de traitement :
- process_toc_with_page_numbers (avec table des matières + avec numéros de page) : Utiliser LLM pour convertir la table des matières d'origine en JSON structuré, mapper les numéros de page logiques aux numéros de page physiques
- process_no_toc (sans table des matières) : LLM déduit directement la structure hiérarchique du contenu du corps du texte
- process_toc_no_page_numbers (avec table des matières mais sans numéros de page) : Extraire la structure puis déduire et compléter les numéros de page physiques
3.2 Modèle de données de structure arborescente
Chaque nœud de l'arbre contient : title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (tableau de nœuds enfants) et d'autres champs.
3.3 Mécanisme de recherche par raisonnement
La phase de recherche ne repose sur aucun calcul vectoriel. LLM reçoit la question de l'utilisateur et la structure arborescente du document, raisonne sur la base des titres et des résumés des nœuds et génère son « processus de pensée » et une liste de node_id pertinents. Le système extrait ensuite le texte complet des nœuds correspondants de node_map en fonction de node_id, les concatène en contexte et les transmet à LLM pour générer la réponse finale.

4. Points forts de la conception principale
- Architecture sans vecteurs : Pas besoin de modèle d'embedding ni de base de données vectorielle, ce qui réduit les coûts d'infrastructure et simplifie le déploiement
- Conservation de la structure naturelle du document : Organiser le contenu par chapitres/sections/sous-sections inhérents au document, en évitant la perte de contexte entre les chunks
- Interprétabilité de la recherche : Chaque recherche renvoie une chaîne de raisonnement complète, ce qui présente un avantage évident dans les scénarios où les exigences de conformité sont élevées
5. Résultats de l'évaluation
Mafin 2.5 est un système de questions-réponses sur des documents financiers basé sur PageIndex. Ses performances sur FinanceBench (benchmark de QA sur des documents financiers) atteignent une précision de 98,7 %, ce qui est bien supérieur à Perplexity (45 %) et GPT-4o (31 %).

6. Scénarios d'application
Convient pour : Les longs documents avec une structure hiérarchique claire (rapports financiers, réglementations, manuels scolaires, manuels), d'une longueur de plusieurs dizaines à plusieurs centaines de pages
Ne convient pas pour : Les documents sans contenu structuré, les documents numérisés non OCRisés, les documents principalement constitués de tableaux/graphiques, les scénarios nécessitant une réponse en temps réel en millisecondes
7. Conclusion
La contribution principale de PageIndex réside dans la proposition d'un paradigme RAG sans vecteurs pratique : utiliser la structure naturelle du document pour construire un index arborescent, et utiliser le raisonnement LLM pour remplacer la recherche de similarité vectorielle. Cette solution fonctionne exceptionnellement bien dans les scénarios de longs documents spécialisés avec une structure hiérarchique claire, et son interprétabilité et son auditabilité sont également nettement supérieures aux solutions traditionnelles.





