PageIndex im Detail: Vektorloses, schlussfolgerndes RAG, das KI Dokumente wie menschliche Experten lesen lässt
PageIndex ist ein vom Vectify AI Team Open-Source-Framework für vektorloses, schlussfolgerndes RAG (GitHub 14.8k+ Sterne). Es wandelt lange Dokumente in einen hierarchischen Baumindex um und verwendet LLM für die schlussfolgernde Suche im Baum, wodurch eine Genauigkeit von 98,7 % auf dem FinanceBench-Benchmark für Finanzdokumenten-Fragen erreicht wird.

1. Hintergrund: Die fünf Schwachstellen des traditionellen RAG
RAG hat sich zum De-facto-Standard für Large Language Model (LLM) Anwendungen entwickelt. Der Mainstream-Ansatz unterteilt Dokumente in der Vorverarbeitungsphase in Chunks fester Länge, wandelt sie mithilfe eines Embedding-Modells in Vektoren um und speichert sie in einer Vektordatenbank. Bei der Abfrage wird das Benutzerproblem auf die gleiche Weise eingebettet und dann die Top-K-Ergebnisse durch Vektorähnlichkeitssuche abgerufen, die zu einem Eingabekontext für das LLM zusammengefügt werden.
Dieser Prozess ist bei kurzen Texten und allgemeinen Szenarien effektiv, zeigt aber in Szenarien mit professionellen langen Dokumenten (Finanzberichte, Gesetze und Vorschriften, technische Handbücher usw.) fünf grundlegende Probleme auf:
1) Ähnlichkeit ≠ Relevanz. Die Vektorsuche geht davon aus, dass „der semantisch ähnlichste Textblock = die relevanteste Antwortquelle“ ist, aber in professionellen Dokumenten teilen viele Absätze eine ähnliche Semantik, unterscheiden sich jedoch in wichtigen Details erheblich.
2) Harte Chunking zerstört die Kontextintegrität. Das Aufteilen von Dokumenten in feste Fenster von 512 oder 1024 Token schneidet Sätze, Absätze oder sogar ganze logische Abschnitte ab, was zum Verlust wichtiger Kontexte führt.
3) Fehlausrichtung von Abfrageabsicht und Wissensraum. Die Abfrage des Benutzers drückt eine „Absicht“ und keinen „Inhalt“ aus, und das Query Embedding und das Document Embedding befinden sich in unterschiedlichen semantischen Räumen.
4) Unfähigkeit, Zitate innerhalb des Dokuments zu verarbeiten. Professionelle Dokumente enthalten häufig Zitate wie „siehe Anhang G“ oder „siehe Tabelle 5.3“. Zwischen diesen Zitaten und den zitierten Inhalten besteht keine semantische Ähnlichkeit, und die Vektorsuche kann sie nicht zuordnen.
5) Unabhängige Abfragen, die die Gesprächshistorie nicht nutzen können. Jede Suche behandelt die Abfrage als unabhängige Anfrage und kann den vorherigen Gesprächskontext nicht für eine inkrementelle Suche nutzen.
2. PageIndex Gesamtarchitektur
PageIndex ist ein vektorloses (Vectorless), auf Schlussfolgerungen basierendes (Reasoning-based) RAG-Framework. Die Kernidee ist: Anstatt das Modell im Vektorraum eine ungefähre Übereinstimmung finden zu lassen, ist es besser, das Modell auf der strukturierten Darstellung des Dokuments schlussfolgern zu lassen – zu entscheiden, „wo man hinschaut“, anstatt nur „was ähnlich aussieht“.
PageIndex simuliert die Art und Weise, wie menschliche Experten lange Dokumente lesen: Zuerst wird das Inhaltsverzeichnis durchgesehen, dann werden relevante Kapitel anhand der Frage beurteilt und dann wird schrittweise tiefer gegangen, bis der Zielinhalt gefunden ist. Dieser Prozess wird in zwei Schritten realisiert:
- Erstellen einer Baumstrukturindex: Konvertieren von PDF/Markdown-Dokumenten in einen hierarchischen JSON-Baum, ähnlich einem „für LLM optimierten Inhaltsverzeichnis“
- Schlussfolgernde Baumsuche: LLM navigiert anhand der Frage im Baum, lokalisiert relevante Knoten, extrahiert Inhalte und generiert Antworten

3. Kernmodul-Zerlegung
3.1 PDF-Verarbeitungspipeline
Die PDF-Verarbeitungspipeline von PageIndex wird von der Funktion tree_parser() orchestriert. Der Kernprozess umfasst: Inhaltsverzeichnis-Erkennung (drei Modus-Zweige), Ergänzung des Vorworts, Konvertierung einer flachen Liste in einen hierarchischen Baum, rekursive Unterteilung großer Knoten, Anreicherung von Knoten, JSON-Baumstrukturausgabe.
Drei Verarbeitungsmodi:
- process_toc_with_page_numbers (mit Inhaltsverzeichnis + mit Seitenzahlen): LLM verwendet das ursprüngliche Inhaltsverzeichnis, um es in strukturiertes JSON zu konvertieren und logische Seitenzahlen auf physische Seitenzahlen abzubilden
- process_no_toc (ohne Inhaltsverzeichnis): LLM leitet die hierarchische Struktur direkt aus dem Hauptteil des Inhalts ab
- process_toc_no_page_numbers (mit Inhaltsverzeichnis, aber ohne Seitenzahlen): Extrahiert die Struktur und leitet dann physische Seitenzahlen ab und ergänzt sie
3.2 Datenmodell der Baumstruktur
Jeder Knoten im Baum enthält Felder wie: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (Array von untergeordneten Knoten) usw.
3.3 Schlussfolgernder Suchmechanismus
Die Suchphase ist nicht von Vektorberechnungen abhängig. LLM empfängt die Benutzerfrage und die Dokumentbaumstruktur, schlussfolgert anhand des Knotentitels und der Zusammenfassung und gibt seinen „Denkprozess“ und die Liste der relevanten node_id aus. Das System extrahiert dann den vollständigen Text des entsprechenden Knotens aus der node_map anhand der node_id, fügt ihn als Kontext zusammen und übergibt ihn an LLM, um die endgültige Antwort zu generieren.

4. Zentrale Design-Highlights
- Vektorlose Architektur: Keine Embedding-Modelle und Vektordatenbanken erforderlich, wodurch die Infrastrukturkosten gesenkt und die Bereitstellung vereinfacht wird
- Beibehaltung der natürlichen Dokumentstruktur: Organisieren von Inhalten nach den inhärenten Kapiteln/Abschnitten/Unterabschnitten des Dokuments, wodurch der Verlust von Kontext über Chunks hinweg vermieden wird
- Interpretierbarkeit der Suche: Jede Suche gibt eine vollständige Schlussfolgerungskette zurück, was in Szenarien mit hohen Compliance-Anforderungen einen deutlichen Vorteil darstellt
5. Bewertungsergebnisse
Mafin 2.5 ist ein auf PageIndex basierendes Finanzdokumenten-Fragesystem. Die Leistung auf FinanceBench (Benchmark-Test für Finanzdokumenten-QA) erreicht eine Genauigkeit von 98,7 %, was Perplexity (45 %) und GPT-4o (31 %) deutlich übertrifft.

6. Anwendbare Szenarien
Geeignet für: Lange Dokumente mit einer klaren hierarchischen Struktur (Finanzberichte, Vorschriften, Lehrbücher, Handbücher), die Dutzende bis Hunderte von Seiten umfassen
Nicht geeignet für: Dokumente ohne strukturierte Inhalte, nicht-OCR-gescannte Dokumente, Dokumente, die hauptsächlich aus Tabellen/Diagrammen bestehen, Szenarien, die eine Echtzeitreaktion im Millisekundenbereich erfordern
7. Zusammenfassung
Der Kernbeitrag von PageIndex besteht darin, ein praktisches vektorloses RAG-Paradigma vorzuschlagen: Verwenden der natürlichen Dokumentstruktur zum Erstellen eines Baumindex und Ersetzen der Vektorähnlichkeitssuche durch LLM-Schlussfolgerungen. Dieser Ansatz ist in professionellen langen Dokumentszenarien mit einer klaren hierarchischen Struktur hervorragend und die Interpretierbarkeit und Auditierbarkeit ist herkömmlichen Ansätzen deutlich überlegen.





