PageIndex 심층 분석: 벡터 없는 추론 기반 RAG, AI가 인간 전문가처럼 문서 읽기

2/15/2026
4 min read

PageIndex는 Vectify AI 팀에서 오픈 소스로 공개한 벡터 없는 추론 기반 RAG 프레임워크입니다(GitHub 14.8k+ stars). 긴 문서를 계층적 트리 인덱스로 변환하고, LLM을 사용하여 트리에서 추론식 검색을 수행하여 FinanceBench 금융 문서 질의응답 벤치마크에서 98.7%의 정확도를 달성합니다.

1. 배경: 기존 RAG의 다섯 가지 문제점

RAG는 대규모 모델 애플리케이션의 사실상 표준이 되었습니다. 주류 솔루션은 전처리 단계에서 문서를 고정 길이의 chunk로 분할하고, embedding 모델을 통해 벡터로 변환하여 벡터 데이터베이스에 저장합니다. 쿼리 시 사용자 질문에 대해 동일한 embedding을 수행하고, 벡터 유사도 검색을 통해 Top-K 결과를 회수하여 LLM의 입력 컨텍스트로 연결합니다.

이 프로세스는 짧은 텍스트와 일반적인 시나리오에서는 효과적이지만, 전문적인 긴 문서(재무 보고서, 법규, 기술 매뉴얼 등) 시나리오에서는 다음과 같은 다섯 가지 근본적인 문제가 드러납니다.

1) 유사성 ≠ 관련성. 벡터 검색은 '의미적으로 가장 유사한 텍스트 블록 = 가장 관련 있는 답변 소스'라고 가정하지만, 전문 문서에서는 많은 단락이 유사한 의미를 공유하지만 중요한 세부 사항에서 큰 차이가 있습니다.

2) 하드 분할은 컨텍스트 완전성을 파괴합니다. 512 또는 1024 토큰의 고정 창으로 문서를 분할하면 문장, 단락 또는 전체 논리 단락이 잘려 중요한 컨텍스트가 손실됩니다.

3) 쿼리 의도와 지식 공간의 불일치. 사용자의 쿼리는 '내용'이 아닌 '의도'를 표현하며, query embedding과 document embedding은 서로 다른 의미 공간에 있습니다.

4) 문서 내 인용을 처리할 수 없습니다. 전문 문서에서는 '자세한 내용은 부록 G 참조', '표 5.3 참조' 등과 같은 인용이 일반적입니다. 이러한 인용과 인용된 내용 사이에는 의미적 유사성이 없으므로 벡터 검색은 일치시킬 수 없습니다.

5) 독립적인 쿼리, 대화 기록을 활용할 수 없습니다. 매번 검색 시 쿼리를 독립적인 요청으로 간주하므로 이전 대화 컨텍스트와 결합하여 점진적인 검색을 수행할 수 없습니다.

2. PageIndex 전체 아키텍처

PageIndex는 벡터 없는(Vectorless), 추론 기반(Reasoning-based) RAG 프레임워크입니다. 핵심 아이디어는 모델이 벡터 공간에서 근사 일치를 수행하도록 하는 대신 문서의 구조화된 표현에서 추론하도록 하는 것입니다. 즉, 단순히 '무엇이 유사해 보이는지'가 아니라 '어디를 봐야 하는지'를 결정합니다.

PageIndex는 인간 전문가가 긴 문서를 읽는 방식을 모방합니다. 먼저 목차를 살펴보고, 질문에 따라 관련 장을 판단하고, 목표 내용을 찾을 때까지 계층적으로 깊이 들어갑니다. 이 과정은 다음 두 단계를 통해 구현됩니다.

  • 트리 구조 인덱스 구축: PDF/Markdown 문서를 LLM에 최적화된 목차와 유사한 계층적 JSON 트리로 변환합니다.
  • 추론식 트리 검색: LLM은 질문에 따라 트리에서 추론 탐색을 수행하여 관련 노드를 찾고, 내용을 추출하여 답변을 생성합니다.

3. 핵심 모듈 분해

3.1 PDF 처리 파이프라인

PageIndex의 PDF 처리 파이프라인은 tree_parser() 함수에 의해 구성되며, 핵심 프로세스는 목차 감지(세 가지 모드 분기), 서문 보충, 평면 목록을 계층 트리로 변환, 큰 노드 재귀 세분화, 노드 풍부화, JSON 트리 구조 출력 등을 포함합니다.

세 가지 처리 모드:

  • process_toc_with_page_numbers(목차 + 페이지 번호): LLM을 사용하여 원본 목차를 구조화된 JSON으로 변환하고, 논리 페이지 번호를 물리 페이지 번호에 매핑합니다.
  • process_no_toc(목차 없음): LLM이 본문 내용에서 직접 계층 구조를 추론합니다.
  • process_toc_no_page_numbers(목차는 있지만 페이지 번호 없음): 구조를 추출한 다음 물리 페이지 번호를 추론하여 보충합니다.

3.2 트리 구조 데이터 모델

트리의 각 노드에는 title, node_id, start_index, end_index, summary, prefix_summary, text, nodes(자식 노드 배열) 등의 필드가 포함됩니다.

3.3 추론식 검색 메커니즘

검색 단계에서는 벡터 계산에 의존하지 않습니다. LLM은 사용자 질문과 문서 트리 구조를 수신하고, 노드 제목과 요약을 기반으로 추론을 수행하여 '사고 과정'과 관련 node_id 목록을 출력합니다. 시스템은 node_id를 기반으로 node_map에서 해당 노드의 전체 텍스트를 추출하고, 컨텍스트로 연결하여 LLM이 최종 답변을 생성하도록 합니다.

4. 핵심 설계 하이라이트

  • 벡터 없는 아키텍처: embedding 모델과 벡터 데이터베이스가 필요 없어 인프라 비용을 줄이고 배포를 간소화합니다.
  • 문서의 자연스러운 구조 유지: 문서의 고유한 장/절/소절별로 내용을 구성하여 chunk 간 컨텍스트 손실을 방지합니다.
  • 검색의 설명 가능성: 매번 검색 시 전체 추론 체인을 반환하므로 규정 준수 요구 사항이 높은 시나리오에서 분명한 이점이 있습니다.

5. 평가 결과

Mafin 2.5는 PageIndex를 기반으로 한 금융 문서 질의응답 시스템입니다. FinanceBench(금융 문서 QA 벤치마크 테스트)에서 98.7%의 정확도를 달성하여 Perplexity(45%)와 GPT-4o(31%)를 훨씬 능가합니다.

6. 적용 가능한 시나리오

적합: 명확한 계층 구조를 가진 긴 문서(재무 보고서, 법규, 교재, 매뉴얼), 수십 페이지에서 수백 페이지 분량

부적합: 구조화되지 않은 내용의 문서, OCR 처리되지 않은 스캔 문서, 표/차트가 주를 이루는 문서, 밀리초 단위의 실시간 응답이 필요한 시나리오

7. 요약

PageIndex의 핵심 기여는 문서의 자연스러운 구조를 사용하여 트리 인덱스를 구축하고, LLM 추론으로 벡터 유사도 검색을 대체하는 실용적인 벡터 없는 RAG 패러다임을 제시한 것입니다. 이 솔루션은 명확한 계층 구조를 가진 전문적인 긴 문서 시나리오에서 뛰어난 성능을 보이며, 설명 가능성과 감사 가능성도 기존 솔루션보다 훨씬 뛰어납니다.

Published in Technology

You Might Also Like

클라우드 컴퓨팅 기술 사용 방법: 첫 번째 클라우드 인프라 구축 완벽 가이드Technology

클라우드 컴퓨팅 기술 사용 방법: 첫 번째 클라우드 인프라 구축 완벽 가이드

클라우드 컴퓨팅 기술 사용 방법: 첫 번째 클라우드 인프라 구축 완벽 가이드 서론 디지털 전환이 가속화됨에 따라 클라우드 컴퓨팅은 기업과 개발자들이 선호하는 솔루션이 되었습니다. 클라우드 컴퓨팅을 통해 사용자는 애플...

경고! Claude Code의 아버지, 1개월 후 Plan Mode를 사용하지 않으면 소프트웨어 엔지니어 직함이 사라질 것이라고 단언하다Technology

경고! Claude Code의 아버지, 1개월 후 Plan Mode를 사용하지 않으면 소프트웨어 엔지니어 직함이 사라질 것이라고 단언하다

경고! Claude Code의 아버지, 1개월 후 Plan Mode를 사용하지 않으면 소프트웨어 엔지니어 직함이 사라질 것이라고 단언하다 최근 YC의 원탁 인터뷰가 기술계에서 화제가 되었습니다——Claude Cod...

2026년 Top 10 심층 학습 자원 추천Technology

2026년 Top 10 심층 학습 자원 추천

2026년 Top 10 심층 학습 자원 추천 심층 학습이 다양한 분야에서 빠르게 발전함에 따라, 점점 더 많은 학습 자원과 도구가 등장하고 있습니다. 본문에서는 2026년 가장 주목할 만한 10개의 심층 학습 자원을...

2026년 Top 10 AI 에이전트: 핵심 판매 포인트 분석Technology

2026년 Top 10 AI 에이전트: 핵심 판매 포인트 분석

2026년 Top 10 AI 에이전트: 핵심 판매 포인트 분석 서론 인공지능의 빠른 발전과 함께 AI 에이전트(AI Agents)는 기술 분야의 핫 이슈가 되었습니다. 점점 더 많은 개발자와 기업들이 이러한 스마트 ...

2026년 Top 10 AI 도구 추천: 인공지능의 진정한 잠재력 발휘하기Technology

2026년 Top 10 AI 도구 추천: 인공지능의 진정한 잠재력 발휘하기

2026년 Top 10 AI 도구 추천: 인공지능의 진정한 잠재력 발휘하기 기술이 빠르게 발전하는 오늘날, 인공지능(AI)은 각 산업에서 인기 있는 주제가 되었습니다. 의료 건강에서 금융 서비스, 교육에서 엔터테인먼...

2026년 Top 10 AWS 도구 및 리소스 추천Technology

2026년 Top 10 AWS 도구 및 리소스 추천

2026년 Top 10 AWS 도구 및 리소스 추천 빠르게 발전하는 클라우드 컴퓨팅 분야에서 Amazon Web Services (AWS)는 선두주자로서 풍부한 서비스와 도구를 제공하여 개발자, 기업 및 기술 전문가...