Phân tích sâu về PageIndex: RAG kiểu suy luận không dùng vector, giúp AI đọc tài liệu như chuyên gia

2/15/2026
7 min read

PageIndex là một framework RAG kiểu suy luận, không dùng vector, mã nguồn mở từ nhóm Vectify AI (GitHub 14.8k+ stars). Nó chuyển đổi tài liệu dài thành chỉ mục cây phân cấp, sử dụng LLM để tìm kiếm suy luận trên cây, đạt độ chính xác 98.7% trên FinanceBench, một chuẩn đánh giá hỏi đáp tài liệu tài chính.

1. Bối cảnh: Năm điểm yếu của RAG truyền thống

RAG đã trở thành tiêu chuẩn thực tế cho các ứng dụng mô hình lớn. Giải pháp chủ đạo là chia tài liệu thành các chunk có độ dài cố định trong giai đoạn tiền xử lý, chuyển đổi chúng thành vector thông qua mô hình embedding, và lưu trữ chúng trong cơ sở dữ liệu vector; khi truy vấn, embedding câu hỏi của người dùng được thực hiện tương tự, sau đó kết quả Top-K được thu hồi thông qua tìm kiếm độ tương đồng vector, và được nối lại thành ngữ cảnh đầu vào của LLM.

Quy trình này hoạt động hiệu quả trong các tình huống văn bản ngắn và tổng quát, nhưng trong các tình huống tài liệu dài chuyên ngành (báo cáo tài chính, luật pháp, hướng dẫn kỹ thuật, v.v.), nó bộc lộ năm vấn đề cơ bản:

1) Tính tương tự ≠ Tính liên quan. Tìm kiếm vector giả định rằng "khối văn bản có ngữ nghĩa tương tự nhất = nguồn câu trả lời liên quan nhất", nhưng trong các tài liệu chuyên ngành, một lượng lớn các đoạn văn chia sẻ ngữ nghĩa gần đúng nhưng lại khác biệt đáng kể về các chi tiết quan trọng.

2) Phân chia cứng phá vỡ tính toàn vẹn của ngữ cảnh. Việc chia tài liệu theo cửa sổ cố định 512 hoặc 1024 token sẽ cắt đứt các câu, đoạn văn, thậm chí cả các đoạn logic, dẫn đến mất ngữ cảnh quan trọng.

3) Ý định truy vấn và không gian kiến thức không khớp. Truy vấn của người dùng thể hiện "ý định" chứ không phải "nội dung", embedding truy vấn và embedding tài liệu nằm trong các không gian ngữ nghĩa khác nhau.

4) Không thể xử lý các trích dẫn trong tài liệu. Các tài liệu chuyên ngành thường có các trích dẫn như "xem Phụ lục G", "tham khảo Bảng 5.3", v.v. Không có sự tương đồng về ngữ nghĩa giữa các trích dẫn này và nội dung được trích dẫn, vì vậy tìm kiếm vector không thể khớp.

5) Truy vấn độc lập, không thể tận dụng lịch sử hội thoại. Mỗi lần tìm kiếm coi truy vấn là một yêu cầu độc lập, không thể kết hợp ngữ cảnh hội thoại trước đó để tìm kiếm tăng dần.

2. Kiến trúc tổng thể của PageIndex

PageIndex là một framework RAG không dùng vector (Vectorless), dựa trên suy luận (Reasoning-based). Ý tưởng cốt lõi của nó là: thay vì để mô hình thực hiện khớp gần đúng trong không gian vector, tốt hơn là để mô hình suy luận trên biểu diễn cấu trúc của tài liệu - quyết định "nhìn vào đâu", thay vì chỉ "cái gì trông giống nhau".

PageIndex mô phỏng cách các chuyên gia đọc tài liệu dài: đầu tiên duyệt mục lục, sau đó đánh giá các chương liên quan dựa trên câu hỏi, đi sâu từng lớp cho đến khi tìm thấy nội dung mục tiêu. Quá trình này được thực hiện thông qua hai bước:

  • Xây dựng chỉ mục cấu trúc cây: Chuyển đổi tài liệu PDF/Markdown thành cây JSON phân cấp, tương tự như "mục lục được tối ưu hóa cho LLM"
  • Tìm kiếm cây kiểu suy luận: LLM thực hiện điều hướng suy luận trên cây dựa trên câu hỏi, xác định vị trí các nút liên quan, trích xuất nội dung và tạo câu trả lời

3. Phân tích các module cốt lõi

3.1 Quy trình xử lý PDF

Quy trình xử lý PDF của PageIndex được sắp xếp bởi hàm tree_parser(), quy trình cốt lõi bao gồm: phát hiện mục lục (ba nhánh chế độ), bổ sung lời nói đầu, chuyển đổi danh sách phẳng thành cây phân cấp, chia nhỏ đệ quy các nút lớn, làm phong phú các nút, xuất cấu trúc cây JSON.

Ba chế độ xử lý:

  • process_toc_with_page_numbers (có mục lục + có số trang): Sử dụng LLM để chuyển đổi mục lục gốc thành JSON có cấu trúc, ánh xạ số trang logic sang số trang vật lý
  • process_no_toc (không có mục lục): LLM suy luận trực tiếp cấu trúc phân cấp từ nội dung chính văn
  • process_toc_no_page_numbers (có mục lục nhưng không có số trang): Trích xuất cấu trúc và sau đó suy luận để bổ sung số trang vật lý

3.2 Mô hình dữ liệu cấu trúc cây

Mỗi nút trong cây chứa các trường: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (mảng các nút con), v.v.

3.3 Cơ chế tìm kiếm kiểu suy luận

Giai đoạn tìm kiếm không phụ thuộc vào bất kỳ tính toán vector nào. LLM nhận câu hỏi của người dùng và cấu trúc cây tài liệu, suy luận dựa trên tiêu đề và tóm tắt của nút, xuất ra "quá trình suy nghĩ" và danh sách node_id liên quan. Sau đó, hệ thống trích xuất văn bản đầy đủ của các nút tương ứng từ node_map dựa trên node_id, nối chúng lại thành ngữ cảnh và giao cho LLM để tạo câu trả lời cuối cùng.

4. Điểm nổi bật trong thiết kế cốt lõi

  • Kiến trúc không dùng vector: Không cần mô hình embedding và cơ sở dữ liệu vector, giảm chi phí cơ sở hạ tầng, đơn giản hóa việc triển khai
  • Giữ lại cấu trúc tự nhiên của tài liệu: Tổ chức nội dung theo các chương/tiết/tiểu mục vốn có của tài liệu, tránh mất ngữ cảnh giữa các chunk
  • Tính giải thích được của tìm kiếm: Mỗi lần tìm kiếm trả về một chuỗi suy luận hoàn chỉnh, có lợi thế rõ ràng trong các tình huống có yêu cầu tuân thủ cao

5. Kết quả đánh giá

Mafin 2.5 là một hệ thống hỏi đáp tài liệu tài chính dựa trên PageIndex. Hiệu suất trên FinanceBench (chuẩn kiểm tra QA tài liệu tài chính) đạt độ chính xác 98.7%, vượt xa Perplexity (45%) và GPT-4o (31%).

6. Các tình huống áp dụng

Phù hợp: Tài liệu dài có cấu trúc phân cấp rõ ràng (báo cáo tài chính, quy định, sách giáo khoa, hướng dẫn sử dụng), có độ dài từ hàng chục đến hàng trăm trang

Không phù hợp: Tài liệu không có nội dung cấu trúc, bản quét chưa được OCR, tài liệu chủ yếu là bảng/biểu đồ, các tình huống yêu cầu phản hồi thời gian thực ở cấp độ mili giây

7. Tóm tắt

Đóng góp cốt lõi của PageIndex là đề xuất một mô hình RAG không dùng vector thiết thực: xây dựng chỉ mục cây bằng cấu trúc tự nhiên của tài liệu, thay thế tìm kiếm độ tương đồng vector bằng suy luận LLM. Giải pháp này hoạt động xuất sắc trong các tình huống tài liệu dài chuyên ngành có cấu trúc phân cấp rõ ràng, đồng thời tính giải thích và khả năng kiểm toán cũng vượt trội so với các giải pháp truyền thống.

Published in Technology

You Might Also Like

Cách sử dụng công nghệ điện toán đám mây: Hướng dẫn đầy đủ để xây dựng cơ sở hạ tầng đám mây đầu tiên của bạnTechnology

Cách sử dụng công nghệ điện toán đám mây: Hướng dẫn đầy đủ để xây dựng cơ sở hạ tầng đám mây đầu tiên của bạn

Cách sử dụng công nghệ điện toán đám mây: Hướng dẫn đầy đủ để xây dựng cơ sở hạ tầng đám mây đầu tiên của bạn Giới thiệu...

Cảnh báo! Cha đẻ của Claude Code thẳng thắn: Một tháng nữa không dùng Plan Mode, danh hiệu kỹ sư phần mềm sẽ biến mấtTechnology

Cảnh báo! Cha đẻ của Claude Code thẳng thắn: Một tháng nữa không dùng Plan Mode, danh hiệu kỹ sư phần mềm sẽ biến mất

Cảnh báo! Cha đẻ của Claude Code thẳng thắn: Một tháng nữa không dùng Plan Mode, danh hiệu kỹ sư phần mềm sẽ biến mất G...

2026年 Top 10 深度学习资源推荐Technology

2026年 Top 10 深度学习资源推荐

2026年 Top 10 深度学习资源推荐 随着深度学习在各个领域的迅速发展,越来越多的学习资源和工具涌现出来。本文将为您推荐2026年最值得关注的十个深度学习资源,帮助您在这一领域中快速成长。 1. Coursera Deep Learn...

Top 10 AI đại lý năm 2026: Phân tích điểm bán hàng cốt lõiTechnology

Top 10 AI đại lý năm 2026: Phân tích điểm bán hàng cốt lõi

Top 10 AI đại lý năm 2026: Phân tích điểm bán hàng cốt lõi Giới thiệu Với sự phát triển nhanh chóng của trí tuệ nhân tạo...

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力Technology

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力 Trong thời đại công nghệ phát triển nhanh chóng ngày nay, trí tuệ nhân tạo (AI) đã trở ...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 Trong lĩnh vực điện toán đám mây đang phát triển nhanh chóng, Amazon Web Services (AWS) luôn là ...