PageIndex: Εμβάθυνση στην Ανάλυση: RAG χωρίς διανύσματα και με συμπερασματική λογική, που επιτρέπει στην AI να διαβάζει έγγραφα σαν ανθρώπινος ειδικός

Το PageIndex είναι ένα RAG framework χωρίς διανύσματα και με συμπερασματική λογική, ανοιχτού κώδικα από την ομάδα Vectify AI (GitHub 14.8k+ stars). Μετατρέπει μακροσκελή έγγραφα σε ιεραρχική δενδρική ευρετηρίαση, χρησιμοποιεί LLM για συμπερασματική αναζήτηση στο δέντρο και επιτυγχάνει ακρίβεια 98,7% στο FinanceBench, ένα benchmark ερωτήσεων και απαντήσεων για οικονομικά έγγραφα.

1. Ιστορικό: Τα πέντε σημεία πόνου του παραδοσιακού RAG

Το RAG έχει γίνει το de facto πρότυπο για εφαρμογές μεγάλων γλωσσικών μοντέλων. Η κύρια προσέγγιση χωρίζει το έγγραφο σε τμήματα σταθερού μήκους (chunks) στο στάδιο της προεπεξεργασίας, τα μετατρέπει σε διανύσματα μέσω ενός embedding μοντέλου και τα αποθηκεύει σε μια διανυσματική βάση δεδομένων. Κατά την αναζήτηση, το embedding του ερωτήματος του χρήστη γίνεται με τον ίδιο τρόπο και στη συνέχεια ανακτώνται τα Top-K αποτελέσματα μέσω αναζήτησης ομοιότητας διανυσμάτων, τα οποία συνδυάζονται ως το εισαγωγικό πλαίσιο για το LLM.

Αυτή η διαδικασία είναι αποτελεσματική σε σύντομα κείμενα και γενικά σενάρια, αλλά σε σενάρια εξειδικευμένων μακροσκελών εγγράφων (οικονομικές εκθέσεις, νομικοί κανονισμοί, τεχνικά εγχειρίδια κ.λπ.), αποκαλύπτονται πέντε θεμελιώδη προβλήματα:

1) Ομοιότητα ≠ Σχετικότητα. Η διανυσματική ανάκτηση υποθέτει ότι «το πιο σημασιολογικά παρόμοιο τμήμα κειμένου = η πιο σχετική πηγή απάντησης», αλλά σε εξειδικευμένα έγγραφα, πολλά τμήματα μοιράζονται παρόμοια σημασιολογία, αλλά διαφέρουν σημαντικά σε κρίσιμες λεπτομέρειες.

2) Η σκληρή διαίρεση σε τμήματα καταστρέφει την ακεραιότητα του πλαισίου. Η διαίρεση ενός εγγράφου σε σταθερά παράθυρα 512 ή 1024 tokens θα περικόψει προτάσεις, παραγράφους ή ακόμα και ολόκληρες λογικές ενότητες, με αποτέλεσμα την απώλεια κρίσιμου πλαισίου.

3) Ανακολουθία μεταξύ της πρόθεσης του ερωτήματος και του χώρου γνώσης. Το ερώτημα του χρήστη εκφράζει μια «πρόθεση» και όχι «περιεχόμενο», και το query embedding και το document embedding βρίσκονται σε διαφορετικούς σημασιολογικούς χώρους.

4) Αδυναμία διαχείρισης αναφορών εντός του εγγράφου. Εξειδικευμένα έγγραφα περιέχουν συχνά αναφορές όπως «βλ. Παράρτημα G», «ανατρέξτε στον Πίνακα 5.3» κ.λπ. Δεν υπάρχει σημασιολογική ομοιότητα μεταξύ αυτών των αναφορών και του περιεχομένου στο οποίο αναφέρονται, και η διανυσματική ανάκτηση δεν μπορεί να τις αντιστοιχίσει.

5) Ανεξάρτητα ερωτήματα, αδυναμία αξιοποίησης του ιστορικού συνομιλιών. Κάθε ανάκτηση αντιμετωπίζει το ερώτημα ως ανεξάρτητο αίτημα, και δεν μπορεί να συνδυάσει το προηγούμενο πλαίσιο συνομιλίας για προοδευτική ανάκτηση.

2. Συνολική Αρχιτεκτονική του PageIndex

Το PageIndex είναι ένα RAG framework χωρίς διανύσματα (Vectorless), βασισμένο σε συμπερασμούς (Reasoning-based). Η βασική του ιδέα είναι: αντί να αφήσουμε το μοντέλο να κάνει κατά προσέγγιση αντιστοίχιση σε έναν διανυσματικό χώρο, είναι καλύτερα να αφήσουμε το μοντέλο να κάνει συμπερασμούς στη δομημένη αναπαράσταση του εγγράφου - να αποφασίσει «πού να κοιτάξει», αντί απλώς «τι φαίνεται παρόμοιο».

Το PageIndex προσομοιώνει τον τρόπο με τον οποίο ένας ανθρώπινος ειδικός διαβάζει ένα μακροσκελές έγγραφο: πρώτα περιηγείται στον πίνακα περιεχομένων, κρίνει σχετικά κεφάλαια με βάση την ερώτηση και εμβαθύνει σταδιακά μέχρι να βρει το περιεχόμενο-στόχο. Αυτή η διαδικασία επιτυγχάνεται σε δύο βήματα:

Δημιουργία ευρετηρίου δενδρικής δομής: Μετατροπή εγγράφων PDF/Markdown σε ένα ιεραρχικό δέντρο JSON, παρόμοιο με έναν «πίνακα περιεχομένων βελτιστοποιημένο για LLM»
Συμπερασματική αναζήτηση δέντρου: Το LLM χρησιμοποιεί συμπερασμούς για να πλοηγηθεί στο δέντρο με βάση την ερώτηση, να εντοπίσει σχετικούς κόμβους, να εξαγάγει περιεχόμενο και να δημιουργήσει απαντήσεις

3. Αποσυναρμολόγηση Βασικών Ενοτήτων

3.1 Αγωγός Επεξεργασίας PDF

Ο αγωγός επεξεργασίας PDF του PageIndex ενορχηστρώνεται από τη συνάρτηση tree_parser(). Η βασική ροή περιλαμβάνει: ανίχνευση πίνακα περιεχομένων (διακλάδωση τριών τρόπων λειτουργίας), συμπλήρωση προλόγου, μετατροπή επίπεδης λίστας σε ιεραρχικό δέντρο, αναδρομική υποδιαίρεση μεγάλων κόμβων, εμπλουτισμός κόμβων, έξοδος δομής δέντρου JSON.

Τρεις τρόποι λειτουργίας επεξεργασίας:

process_toc_with_page_numbers (με πίνακα περιεχομένων + με αριθμούς σελίδων): Χρησιμοποιεί LLM για να μετατρέψει τον αρχικό πίνακα περιεχομένων σε δομημένο JSON, αντιστοιχίζοντας τους λογικούς αριθμούς σελίδων στους φυσικούς αριθμούς σελίδων
process_no_toc (χωρίς πίνακα περιεχομένων): Το LLM συμπεραίνει την ιεραρχική δομή απευθείας από το περιεχόμενο του κύριου κειμένου
process_toc_no_page_numbers (με πίνακα περιεχομένων αλλά χωρίς αριθμούς σελίδων): Εξάγει τη δομή και στη συνέχεια συμπεραίνει και συμπληρώνει τους φυσικούς αριθμούς σελίδων

3.2 Μοντέλο Δεδομένων Δενδρικής Δομής

Κάθε κόμβος στο δέντρο περιέχει: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (πίνακας θυγατρικών κόμβων) και άλλα πεδία.

3.3 Μηχανισμός Συμπερασματικής Ανάκτησης

Η φάση ανάκτησης δεν βασίζεται σε κανέναν διανυσματικό υπολογισμό. Το LLM λαμβάνει το ερώτημα του χρήστη και τη δομή του δενδρικού εγγράφου, χρησιμοποιεί συμπερασμούς με βάση τους τίτλους και τις περιλήψεις των κόμβων και εξάγει τη «διαδικασία σκέψης» και μια λίστα σχετικών node_id. Στη συνέχεια, το σύστημα εξάγει το πλήρες κείμενο των αντίστοιχων κόμβων από το node_map με βάση το node_id, το συνδυάζει ως πλαίσιο και το παραδίδει στο LLM για να δημιουργήσει την τελική απάντηση.

4. Βασικά Σημεία Σχεδίασης

Αρχιτεκτονική χωρίς διανύσματα: Δεν απαιτείται embedding μοντέλο και διανυσματική βάση δεδομένων, μειώνοντας το κόστος υποδομής και απλοποιώντας την ανάπτυξη
Διατήρηση της φυσικής δομής του εγγράφου: Οργάνωση του περιεχομένου σύμφωνα με τα εγγενή κεφάλαια/υποκεφάλαια/υποενότητες του εγγράφου, αποφεύγοντας την απώλεια πλαισίου μεταξύ των chunks
Επεξηγησιμότητα της ανάκτησης: Κάθε ανάκτηση επιστρέφει μια πλήρη αλυσίδα συμπερασμών, η οποία έχει σαφή πλεονεκτήματα σε σενάρια με υψηλές απαιτήσεις συμμόρφωσης

5. Αποτελέσματα Αξιολόγησης

Το Mafin 2.5 είναι ένα σύστημα ερωτήσεων και απαντήσεων για οικονομικά έγγραφα που βασίζεται στο PageIndex. Η απόδοσή του στο FinanceBench (benchmark δοκιμών QA για οικονομικά έγγραφα) φτάνει σε ακρίβεια 98,7%, ξεπερνώντας κατά πολύ το Perplexity (45%) και το GPT-4o (31%).

6. Κατάλληλα Σενάρια

Κατάλληλο για: Μακροσκελή έγγραφα με σαφή ιεραρχική δομή (οικονομικές εκθέσεις, κανονισμοί, διδακτικά βιβλία, εγχειρίδια), με έκταση δεκάδων έως εκατοντάδων σελίδων

Μη κατάλληλο για: Έγγραφα χωρίς δομημένο περιεχόμενο, σαρώσεις που δεν έχουν υποστεί OCR, έγγραφα που αποτελούνται κυρίως από πίνακες/διαγράμματα, σενάρια που απαιτούν απόκριση σε πραγματικό χρόνο σε χιλιοστά του δευτερολέπτου

7. Συμπεράσματα

Η βασική συνεισφορά του PageIndex έγκειται στην πρόταση ενός πρακτικού παραδείγματος RAG χωρίς διανύσματα: χρήση της φυσικής δομής του εγγράφου για τη δημιουργία ενός δενδρικού ευρετηρίου και χρήση συμπερασμών LLM αντί για αναζήτηση ομοιότητας διανυσμάτων. Αυτή η λύση αποδίδει εξαιρετικά σε σενάρια εξειδικευμένων μακροσκελών εγγράφων με σαφή ιεραρχική δομή, ενώ η επεξηγησιμότητα και η δυνατότητα ελέγχου είναι επίσης σημαντικά ανώτερες από τις παραδοσιακές λύσεις.

PageIndex: Εμβάθυνση στην Ανάλυση: RAG χωρίς διανύσματα και με συμπερασματική λογική, που επιτρέπει στην AI να διαβάζει έγγραφα σαν ανθρώπινος ειδικός

1. Ιστορικό: Τα πέντε σημεία πόνου του παραδοσιακού RAG

2. Συνολική Αρχιτεκτονική του PageIndex

3. Αποσυναρμολόγηση Βασικών Ενοτήτων

3.1 Αγωγός Επεξεργασίας PDF

3.2 Μοντέλο Δεδομένων Δενδρικής Δομής

3.3 Μηχανισμός Συμπερασματικής Ανάκτησης

4. Βασικά Σημεία Σχεδίασης

5. Αποτελέσματα Αξιολόγησης

6. Κατάλληλα Σενάρια

7. Συμπεράσματα

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian παρουσίασε το Defuddle, ανεβάζοντας το Obsidian Web Clipper σε νέο επίπεδο

OpenAI ξαφνικά ανακοινώνει "τρίο σε ένα": Συνδυασμός περιηγητή + προγραμματισμού + ChatGPT, παραδέχεται ότι έκανε λάθος τον τελευταίο χρόνο

2026, μην πιέζεις τον εαυτό σου να είναι "πειθαρχημένος"! Κάνε αυτές τις 8 μικρές κινήσεις και η υγεία θα έρθει φυσικά

Οι μητέρες που προσπαθούν να χάσουν βάρος αλλά δεν τα καταφέρνουν, σίγουρα έχουν κολλήσει εδώ

AI Browser 24小时稳定运行指南