Phân tích sâu về PageIndex: RAG kiểu suy luận không dùng vector, giúp AI đọc tài liệu như chuyên gia

PageIndex là một framework RAG kiểu suy luận, không dùng vector, mã nguồn mở từ nhóm Vectify AI (GitHub 14.8k+ stars). Nó chuyển đổi tài liệu dài thành chỉ mục cây phân cấp, sử dụng LLM để tìm kiếm suy luận trên cây, đạt độ chính xác 98.7% trên FinanceBench, một chuẩn đánh giá hỏi đáp tài liệu tài chính.

1. Bối cảnh: Năm điểm yếu của RAG truyền thống

RAG đã trở thành tiêu chuẩn thực tế cho các ứng dụng mô hình lớn. Giải pháp chủ đạo là chia tài liệu thành các chunk có độ dài cố định trong giai đoạn tiền xử lý, chuyển đổi chúng thành vector thông qua mô hình embedding, và lưu trữ chúng trong cơ sở dữ liệu vector; khi truy vấn, embedding câu hỏi của người dùng được thực hiện tương tự, sau đó kết quả Top-K được thu hồi thông qua tìm kiếm độ tương đồng vector, và được nối lại thành ngữ cảnh đầu vào của LLM.

Quy trình này hoạt động hiệu quả trong các tình huống văn bản ngắn và tổng quát, nhưng trong các tình huống tài liệu dài chuyên ngành (báo cáo tài chính, luật pháp, hướng dẫn kỹ thuật, v.v.), nó bộc lộ năm vấn đề cơ bản:

1) Tính tương tự ≠ Tính liên quan. Tìm kiếm vector giả định rằng "khối văn bản có ngữ nghĩa tương tự nhất = nguồn câu trả lời liên quan nhất", nhưng trong các tài liệu chuyên ngành, một lượng lớn các đoạn văn chia sẻ ngữ nghĩa gần đúng nhưng lại khác biệt đáng kể về các chi tiết quan trọng.

2) Phân chia cứng phá vỡ tính toàn vẹn của ngữ cảnh. Việc chia tài liệu theo cửa sổ cố định 512 hoặc 1024 token sẽ cắt đứt các câu, đoạn văn, thậm chí cả các đoạn logic, dẫn đến mất ngữ cảnh quan trọng.

3) Ý định truy vấn và không gian kiến thức không khớp. Truy vấn của người dùng thể hiện "ý định" chứ không phải "nội dung", embedding truy vấn và embedding tài liệu nằm trong các không gian ngữ nghĩa khác nhau.

4) Không thể xử lý các trích dẫn trong tài liệu. Các tài liệu chuyên ngành thường có các trích dẫn như "xem Phụ lục G", "tham khảo Bảng 5.3", v.v. Không có sự tương đồng về ngữ nghĩa giữa các trích dẫn này và nội dung được trích dẫn, vì vậy tìm kiếm vector không thể khớp.

5) Truy vấn độc lập, không thể tận dụng lịch sử hội thoại. Mỗi lần tìm kiếm coi truy vấn là một yêu cầu độc lập, không thể kết hợp ngữ cảnh hội thoại trước đó để tìm kiếm tăng dần.

2. Kiến trúc tổng thể của PageIndex

PageIndex là một framework RAG không dùng vector (Vectorless), dựa trên suy luận (Reasoning-based). Ý tưởng cốt lõi của nó là: thay vì để mô hình thực hiện khớp gần đúng trong không gian vector, tốt hơn là để mô hình suy luận trên biểu diễn cấu trúc của tài liệu - quyết định "nhìn vào đâu", thay vì chỉ "cái gì trông giống nhau".

PageIndex mô phỏng cách các chuyên gia đọc tài liệu dài: đầu tiên duyệt mục lục, sau đó đánh giá các chương liên quan dựa trên câu hỏi, đi sâu từng lớp cho đến khi tìm thấy nội dung mục tiêu. Quá trình này được thực hiện thông qua hai bước:

Xây dựng chỉ mục cấu trúc cây: Chuyển đổi tài liệu PDF/Markdown thành cây JSON phân cấp, tương tự như "mục lục được tối ưu hóa cho LLM"
Tìm kiếm cây kiểu suy luận: LLM thực hiện điều hướng suy luận trên cây dựa trên câu hỏi, xác định vị trí các nút liên quan, trích xuất nội dung và tạo câu trả lời

3. Phân tích các module cốt lõi

3.1 Quy trình xử lý PDF

Quy trình xử lý PDF của PageIndex được sắp xếp bởi hàm tree_parser(), quy trình cốt lõi bao gồm: phát hiện mục lục (ba nhánh chế độ), bổ sung lời nói đầu, chuyển đổi danh sách phẳng thành cây phân cấp, chia nhỏ đệ quy các nút lớn, làm phong phú các nút, xuất cấu trúc cây JSON.

Ba chế độ xử lý:

process_toc_with_page_numbers (có mục lục + có số trang): Sử dụng LLM để chuyển đổi mục lục gốc thành JSON có cấu trúc, ánh xạ số trang logic sang số trang vật lý
process_no_toc (không có mục lục): LLM suy luận trực tiếp cấu trúc phân cấp từ nội dung chính văn
process_toc_no_page_numbers (có mục lục nhưng không có số trang): Trích xuất cấu trúc và sau đó suy luận để bổ sung số trang vật lý

3.2 Mô hình dữ liệu cấu trúc cây

Mỗi nút trong cây chứa các trường: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (mảng các nút con), v.v.

3.3 Cơ chế tìm kiếm kiểu suy luận

Giai đoạn tìm kiếm không phụ thuộc vào bất kỳ tính toán vector nào. LLM nhận câu hỏi của người dùng và cấu trúc cây tài liệu, suy luận dựa trên tiêu đề và tóm tắt của nút, xuất ra "quá trình suy nghĩ" và danh sách node_id liên quan. Sau đó, hệ thống trích xuất văn bản đầy đủ của các nút tương ứng từ node_map dựa trên node_id, nối chúng lại thành ngữ cảnh và giao cho LLM để tạo câu trả lời cuối cùng.

4. Điểm nổi bật trong thiết kế cốt lõi

Kiến trúc không dùng vector: Không cần mô hình embedding và cơ sở dữ liệu vector, giảm chi phí cơ sở hạ tầng, đơn giản hóa việc triển khai
Giữ lại cấu trúc tự nhiên của tài liệu: Tổ chức nội dung theo các chương/tiết/tiểu mục vốn có của tài liệu, tránh mất ngữ cảnh giữa các chunk
Tính giải thích được của tìm kiếm: Mỗi lần tìm kiếm trả về một chuỗi suy luận hoàn chỉnh, có lợi thế rõ ràng trong các tình huống có yêu cầu tuân thủ cao

5. Kết quả đánh giá

Mafin 2.5 là một hệ thống hỏi đáp tài liệu tài chính dựa trên PageIndex. Hiệu suất trên FinanceBench (chuẩn kiểm tra QA tài liệu tài chính) đạt độ chính xác 98.7%, vượt xa Perplexity (45%) và GPT-4o (31%).

6. Các tình huống áp dụng

Phù hợp: Tài liệu dài có cấu trúc phân cấp rõ ràng (báo cáo tài chính, quy định, sách giáo khoa, hướng dẫn sử dụng), có độ dài từ hàng chục đến hàng trăm trang

Không phù hợp: Tài liệu không có nội dung cấu trúc, bản quét chưa được OCR, tài liệu chủ yếu là bảng/biểu đồ, các tình huống yêu cầu phản hồi thời gian thực ở cấp độ mili giây

7. Tóm tắt

Đóng góp cốt lõi của PageIndex là đề xuất một mô hình RAG không dùng vector thiết thực: xây dựng chỉ mục cây bằng cấu trúc tự nhiên của tài liệu, thay thế tìm kiếm độ tương đồng vector bằng suy luận LLM. Giải pháp này hoạt động xuất sắc trong các tình huống tài liệu dài chuyên ngành có cấu trúc phân cấp rõ ràng, đồng thời tính giải thích và khả năng kiểm toán cũng vượt trội so với các giải pháp truyền thống.

Phân tích sâu về PageIndex: RAG kiểu suy luận không dùng vector, giúp AI đọc tài liệu như chuyên gia

1. Bối cảnh: Năm điểm yếu của RAG truyền thống

2. Kiến trúc tổng thể của PageIndex

3. Phân tích các module cốt lõi

3.1 Quy trình xử lý PDF

3.2 Mô hình dữ liệu cấu trúc cây

3.3 Cơ chế tìm kiếm kiểu suy luận

4. Điểm nổi bật trong thiết kế cốt lõi

5. Kết quả đánh giá

6. Các tình huống áp dụng

7. Tóm tắt

You Might Also Like

Hướng dẫn chỉnh sửa Claude Code Buddy: Cách nhận thú cưng huyền thoại phát sáng

Obsidian đã ra mắt Defuddle, đưa Obsidian Web Clipper lên một tầm cao mới

OpenAI đột ngột công bố "ba trong một": Trình duyệt + lập trình + ChatGPT hợp nhất, nội bộ thừa nhận đã đi sai đường trong năm qua

2026, không còn ép bản thân 'kỷ luật'! Làm tốt 8 việc nhỏ này, sức khỏe tự nhiên đến

Những bà mẹ cố gắng giảm cân nhưng không thành công, chắc chắn đều mắc phải điều này

Hướng dẫn vận hành ổn định AI Browser 24 giờ