Analisis Mendalam PageIndex: RAG Jenis Inferensi Tanpa Vektor, Membolehkan AI Membaca Dokumen Seperti Pakar Manusia
PageIndex ialah rangka kerja RAG tanpa vektor dan jenis inferensi sumber terbuka oleh pasukan Vectify AI (GitHub 14.8k+ bintang). Ia menukarkan dokumen panjang kepada indeks pokok hierarki, menggunakan LLM untuk carian inferensi pada pokok, dan mencapai ketepatan 98.7% pada penanda aras soal jawab dokumen kewangan FinanceBench.

1. Latar Belakang: Lima Titik Kesakitan RAG Tradisional
RAG telah menjadi standard de facto untuk aplikasi model besar. Penyelesaian arus perdana membahagikan dokumen kepada chunk dengan panjang tetap dalam fasa pra-pemprosesan, menukarkannya kepada vektor melalui model embedding, dan menyimpannya dalam pangkalan data vektor; apabila membuat pertanyaan, embedding yang sama dilakukan pada soalan pengguna, dan kemudian Top-K hasil dipanggil balik melalui carian persamaan vektor dan disambungkan sebagai konteks input LLM.
Proses ini berkesan dalam teks pendek dan senario umum, tetapi dalam senario dokumen panjang profesional (laporan kewangan, undang-undang dan peraturan, manual teknikal, dsb.), lima masalah asas didedahkan:
1) Persamaan ≠ Relevansi. Carian vektor mengandaikan bahawa "blok teks yang paling serupa dari segi semantik = sumber jawapan yang paling relevan", tetapi dalam dokumen profesional, sebilangan besar perenggan berkongsi semantik yang hampir sama tetapi berbeza dengan ketara dalam butiran penting.
2) Pembahagian keras memusnahkan integriti konteks. Membahagikan dokumen mengikut tetingkap tetap 512 atau 1024 token akan memotong ayat, perenggan, dan juga keseluruhan perenggan logik, menyebabkan kehilangan konteks penting.
3) Niat pertanyaan dan ruang pengetahuan tidak sejajar. Pertanyaan pengguna menyatakan "niat" dan bukannya "kandungan", dan embedding query dan embedding dokumen berada dalam ruang semantik yang berbeza.
4) Tidak dapat mengendalikan petikan dalam dokumen. Petikan seperti "lihat Lampiran G" dan "rujuk Jadual 5.3" adalah perkara biasa dalam dokumen profesional. Tidak ada persamaan semantik antara petikan ini dan kandungan yang dipetik, dan carian vektor tidak dapat dipadankan.
5) Pertanyaan bebas, tidak dapat menggunakan sejarah perbualan. Setiap carian menganggap query sebagai permintaan bebas dan tidak dapat menggabungkan konteks perbualan sebelumnya untuk carian progresif.
2. Seni Bina Keseluruhan PageIndex
PageIndex ialah rangka kerja RAG tanpa vektor (Vectorless) dan berasaskan inferensi (Reasoning-based). Idea terasnya ialah: daripada membiarkan model membuat padanan anggaran dalam ruang vektor, lebih baik membiarkan model membuat inferensi pada perwakilan berstruktur dokumen——memutuskan "ke mana hendak melihat", dan bukannya hanya "apa yang kelihatan serupa".
PageIndex mensimulasikan cara pakar manusia membaca dokumen panjang: pertama menyemak imbas direktori, menentukan bab yang berkaitan berdasarkan soalan, dan mendalami lapisan demi lapisan sehingga kandungan sasaran ditemui. Proses ini dicapai melalui dua langkah:
- Membina indeks struktur pokok: menukarkan dokumen PDF/Markdown kepada pokok JSON hierarki, serupa dengan "direktori yang dioptimumkan untuk LLM"
- Carian pokok jenis inferensi: LLM membuat navigasi inferensi pada pokok berdasarkan soalan, mencari nod yang berkaitan, mengekstrak kandungan dan menjana jawapan

3. Pembongkaran Modul Teras
3.1 Aliran Paip Pemprosesan PDF
Aliran paip pemprosesan PDF PageIndex disusun oleh fungsi tree_parser(). Proses teras termasuk: pengesanan direktori (tiga cabang mod), penambahan kata pengantar, penukaran senarai rata kepada pokok hierarki, pembahagian rekursif nod besar, nod yang kaya, dan output struktur pokok JSON.
Tiga mod pemprosesan:
- process_toc_with_page_numbers (ada direktori + ada nombor halaman): menggunakan LLM untuk menukarkan direktori asal kepada JSON berstruktur dan memetakan nombor halaman logik kepada nombor halaman fizikal
- process_no_toc (tiada direktori): LLM secara langsung membuat inferensi struktur hierarki daripada kandungan teks utama
- process_toc_no_page_numbers (ada direktori tetapi tiada nombor halaman): mengekstrak struktur dan kemudian membuat inferensi untuk menambah nombor halaman fizikal
3.2 Model Data Struktur Pokok
Setiap nod dalam pokok mengandungi medan seperti: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (tatasusunan nod anak).
3.3 Mekanisme Carian Jenis Inferensi
Peringkat carian tidak bergantung pada sebarang pengiraan vektor. LLM menerima soalan pengguna dan struktur pokok dokumen, membuat inferensi berdasarkan tajuk dan ringkasan nod, dan mengeluarkan "proses pemikiran" dan senarai node_id yang berkaitan. Sistem kemudian mengekstrak teks lengkap nod yang sepadan daripada node_map berdasarkan node_id, menyambungkannya sebagai konteks dan menyerahkannya kepada LLM untuk menjana jawapan akhir.

4. Sorotan Reka Bentuk Teras
- Seni bina tanpa vektor: tidak memerlukan model embedding dan pangkalan data vektor, mengurangkan kos infrastruktur dan memudahkan penggunaan
- Mengekalkan struktur semula jadi dokumen: mengatur kandungan mengikut bab/seksyen/subseksyen yang wujud dalam dokumen, mengelakkan kehilangan konteks merentas chunk
- Kebolehjelasan carian: setiap carian mengembalikan rantaian inferensi yang lengkap, yang mempunyai kelebihan yang jelas dalam senario dengan keperluan pematuhan yang tinggi
5. Keputusan Penilaian
Mafin 2.5 ialah sistem soal jawab dokumen kewangan berdasarkan PageIndex. Prestasi pada FinanceBench (penanda aras QA dokumen kewangan) mencapai ketepatan 98.7%, jauh melebihi Perplexity (45%) dan GPT-4o (31%).

6. Senario yang Sesuai
Sesuai untuk: dokumen panjang dengan struktur hierarki yang jelas (laporan kewangan, peraturan, buku teks, manual), dengan panjang berpuluh-puluh hingga beratus-ratus halaman
Tidak sesuai untuk: dokumen tanpa kandungan berstruktur, imbasan yang tidak di-OCR, dokumen yang didominasi oleh jadual/carta, senario yang memerlukan respons masa nyata milisaat
7. Ringkasan
Sumbangan teras PageIndex terletak pada pencadangan paradigma RAG tanpa vektor yang praktikal: menggunakan struktur semula jadi dokumen untuk membina indeks pokok, dan menggunakan inferensi LLM untuk menggantikan carian persamaan vektor. Penyelesaian ini berprestasi cemerlang dalam senario dokumen panjang profesional dengan struktur hierarki yang jelas, dan kebolehjelasan dan kebolehuditan juga jauh lebih baik daripada penyelesaian tradisional.





