Analisis Mendalam PageIndex: RAG Tipe Inferensi Tanpa Vektor, Membuat AI Membaca Dokumen Seperti Pakar Manusia

2/15/2026
5 min read

PageIndex adalah kerangka kerja RAG tanpa vektor dan berbasis inferensi yang di-open source oleh tim Vectify AI (GitHub 14.8k+ stars). Ia mengubah dokumen panjang menjadi indeks pohon hierarkis, menggunakan LLM untuk pencarian inferensial pada pohon, dan mencapai akurasi 98.7% pada tolok ukur tanya jawab dokumen keuangan FinanceBench.

1. Latar Belakang: Lima Poin Nyeri RAG Tradisional

RAG telah menjadi standar de facto untuk aplikasi model besar. Solusi utama membagi dokumen menjadi chunk dengan panjang tetap pada tahap pra-pemrosesan, mengubahnya menjadi vektor melalui model embedding, dan menyimpannya dalam database vektor; saat melakukan kueri, embedding yang sama dilakukan pada pertanyaan pengguna, dan kemudian hasil Top-K dipanggil kembali melalui pencarian similaritas vektor, dan digabungkan menjadi konteks input LLM.

Alur kerja ini efektif dalam teks pendek dan skenario umum, tetapi dalam skenario dokumen panjang profesional (laporan keuangan, hukum dan peraturan, manual teknis, dll.), lima masalah mendasar terungkap:

1) Similaritas ≠ Relevansi. Pencarian vektor mengasumsikan bahwa "blok teks yang paling mirip secara semantik = sumber jawaban yang paling relevan", tetapi dalam dokumen profesional, sejumlah besar paragraf berbagi semantik yang hampir sama tetapi berbeda secara signifikan dalam detail penting.

2) Pemotongan keras merusak integritas konteks. Membagi dokumen dengan jendela tetap 512 atau 1024 token akan memotong kalimat, paragraf, atau bahkan seluruh bagian logis, yang menyebabkan hilangnya konteks penting.

3) Ketidaksesuaian antara maksud kueri dan ruang pengetahuan. Kueri pengguna mengekspresikan "maksud" daripada "konten", dan embedding kueri dan embedding dokumen berada dalam ruang semantik yang berbeda.

4) Tidak dapat menangani kutipan dalam dokumen. Kutipan seperti "lihat Lampiran G" dan "lihat Tabel 5.3" umum dalam dokumen profesional. Tidak ada similaritas semantik antara kutipan ini dan konten yang dikutip, dan pencarian vektor tidak dapat mencocokkannya.

5) Kueri independen, tidak dapat memanfaatkan riwayat percakapan. Setiap pencarian memperlakukan kueri sebagai permintaan independen, dan tidak dapat menggabungkan konteks percakapan sebelumnya untuk melakukan pencarian inkremental.

2. Arsitektur Keseluruhan PageIndex

PageIndex adalah kerangka kerja RAG tanpa vektor (Vectorless) dan berbasis inferensi (Reasoning-based). Ide intinya adalah: daripada membiarkan model melakukan pencocokan perkiraan di ruang vektor, lebih baik membiarkan model melakukan inferensi pada representasi terstruktur dari dokumen——memutuskan "ke mana harus melihat", daripada hanya "apa yang tampak mirip".

PageIndex mensimulasikan cara pakar manusia membaca dokumen panjang: pertama menelusuri direktori, menentukan bab yang relevan berdasarkan pertanyaan, dan menelusuri secara bertahap hingga menemukan konten target. Proses ini dicapai melalui dua langkah:

  • Membangun indeks struktur pohon: Mengubah dokumen PDF/Markdown menjadi pohon JSON hierarkis, mirip dengan "direktori yang dioptimalkan untuk LLM"
  • Pencarian pohon inferensial: LLM melakukan navigasi inferensial pada pohon berdasarkan pertanyaan, menemukan node yang relevan, mengekstrak konten, dan menghasilkan jawaban

3. Dekonstruksi Modul Inti

3.1 Alur Pemrosesan PDF

Alur pemrosesan PDF PageIndex diatur oleh fungsi tree_parser(), dan proses intinya meliputi: deteksi direktori (tiga cabang mode), suplemen kata pengantar, konversi daftar datar ke pohon hierarkis, subdivisi rekursif node besar, node yang diperkaya, dan output struktur pohon JSON.

Tiga mode pemrosesan:

  • process_toc_with_page_numbers (dengan direktori + dengan nomor halaman): Menggunakan LLM untuk mengubah direktori asli menjadi JSON terstruktur, dan memetakan nomor halaman logis ke nomor halaman fisik
  • process_no_toc (tanpa direktori): LLM langsung menyimpulkan struktur hierarkis dari konten teks
  • process_toc_no_page_numbers (dengan direktori tetapi tanpa nomor halaman): Mengekstrak struktur dan kemudian menyimpulkan dan melengkapi nomor halaman fisik

3.2 Model Data Struktur Pohon

Setiap node dalam pohon berisi bidang-bidang seperti: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (array node anak), dll.

3.3 Mekanisme Pencarian Inferensial

Tahap pencarian tidak bergantung pada perhitungan vektor apa pun. LLM menerima pertanyaan pengguna dan struktur pohon dokumen, melakukan inferensi berdasarkan judul dan ringkasan node, dan mengeluarkan "proses berpikir" dan daftar node_id yang relevan. Sistem kemudian mengekstrak teks lengkap dari node yang sesuai dari node_map berdasarkan node_id, menggabungkannya sebagai konteks dan menyerahkannya ke LLM untuk menghasilkan jawaban akhir.

4. Sorotan Desain Inti

  • Arsitektur tanpa vektor: Tidak memerlukan model embedding dan database vektor, mengurangi biaya infrastruktur, dan menyederhanakan penerapan
  • Mempertahankan struktur alami dokumen: Mengatur konten berdasarkan bab/bagian/sub-bab yang melekat pada dokumen, menghindari hilangnya konteks lintas chunk
  • Kemampuan interpretasi pencarian: Setiap pencarian mengembalikan rantai inferensi lengkap, yang memiliki keunggulan yang jelas dalam skenario dengan persyaratan kepatuhan yang tinggi

5. Hasil Evaluasi

Mafin 2.5 adalah sistem tanya jawab dokumen keuangan berbasis PageIndex. Kinerja pada FinanceBench (tolok ukur QA dokumen keuangan) mencapai akurasi 98.7%, jauh melebihi Perplexity (45%) dan GPT-4o (31%).

6. Skenario yang Berlaku

Cocok untuk: Dokumen panjang dengan struktur hierarkis yang jelas (laporan keuangan, peraturan, buku teks, manual), dengan panjang puluhan hingga ratusan halaman

Tidak cocok untuk: Dokumen tanpa konten terstruktur, pindaian yang belum di-OCR, dokumen yang didominasi oleh tabel/grafik, skenario yang memerlukan respons real-time milidetik

7. Ringkasan

Kontribusi inti PageIndex terletak pada pengajuan paradigma RAG tanpa vektor praktis: menggunakan struktur alami dokumen untuk membangun indeks pohon, dan menggunakan inferensi LLM untuk menggantikan pencarian similaritas vektor. Solusi ini berkinerja sangat baik dalam skenario dokumen panjang profesional dengan struktur hierarkis yang jelas, dan kemampuan interpretasi dan auditabilitas juga secara signifikan lebih baik daripada solusi tradisional.

Published in Technology

You Might Also Like