PageIndex - задълбочен анализ: RAG без векторно разсъждение, позволяващ на AI да чете документи като човешки експерт

2/15/2026
5 min read

PageIndex е RAG рамка без вектори, базирана на разсъждения, с отворен код от екипа на Vectify AI (GitHub 14.8k+ звезди). Тя преобразува дълги документи в йерархичен дървовиден индекс и използва LLM за извличане на информация чрез разсъждения върху дървото, достигайки 98,7% точност на FinanceBench, еталон за въпроси и отговори върху финансови документи.

1. Предистория: Петте болезнени точки на традиционния RAG

RAG се е превърнал във фактически стандарт за приложения с големи езикови модели. Основното решение е да се разделят документите на парчета с фиксирана дължина в етапа на предварителна обработка, да се преобразуват във вектори чрез embedding модел и да се съхранят във векторна база данни; при заявка се прави същото embedding на въпроса на потребителя и след това се извличат Top-K резултатите чрез търсене на векторна сходство, които се обединяват като входен контекст за LLM.

Този процес е ефективен за кратки текстове и общи сценарии, но в сценарии с професионални дълги документи (финансови отчети, закони и разпоредби, технически ръководства и т.н.) се разкриват пет основни проблема:

1) Сходство ≠ Релевантност. Векторното извличане предполага, че „най-семантично подобният текстов блок = най-релевантният източник на отговор“, но в професионалните документи голям брой параграфи споделят приблизителна семантика, но се различават значително в ключови детайли.

2) Твърдото разделяне на блокове нарушава целостта на контекста. Разделянето на документи на фиксирани прозорци от 512 или 1024 токена ще прекъсне изречения, параграфи или дори цели логически секции, което ще доведе до загуба на ключов контекст.

3) Разминаване между намерението на заявката и пространството на знанията. Заявките на потребителите изразяват „намерение“, а не „съдържание“, а query embedding и document embedding са в различни семантични пространства.

4) Невъзможност за обработка на цитати в документа. В професионалните документи са често срещани цитати като „вижте приложение G“, „вижте таблица 5.3“ и т.н. Между тези цитати и цитираното съдържание няма семантична прилика и векторното извличане не може да ги съпостави.

5) Независими заявки, невъзможност за използване на историята на разговорите. Всяко извличане третира заявката като независимо искане и не може да комбинира контекста на предишни разговори за прогресивно извличане.

2. Обща архитектура на PageIndex

PageIndex е RAG рамка без вектори (Vectorless), базирана на разсъждения (Reasoning-based). Основната идея е: вместо да позволяваме на модела да прави приблизително съвпадение във векторното пространство, по-добре е да позволим на модела да разсъждава върху структурираното представяне на документа - да реши „къде да погледне“, а не просто „какво изглежда подобно“.

PageIndex симулира начина, по който човешки експерт чете дълъг документ: първо преглежда съдържанието, преценява съответните глави според въпроса и навлиза постепенно, докато намери целевото съдържание. Този процес се реализира в две стъпки:

  • Изграждане на дървовиден индекс: Преобразуване на PDF/Markdown документи в йерархично JSON дърво, подобно на „оптимизирано за LLM съдържание“
  • Извличане чрез разсъждения в дървото: LLM навигира в дървото чрез разсъждения според въпроса, локализира съответните възли, извлича съдържание и генерира отговори

3. Разглобяване на основните модули

3.1 Тръбопровод за обработка на PDF

Тръбопроводът за обработка на PDF на PageIndex е организиран от функцията tree_parser(), като основният процес включва: откриване на съдържание (три режима на разклоняване), допълване на предговора, преобразуване на плосък списък в йерархично дърво, рекурсивно подразделяне на големи възли, обогатяване на възлите, изход на JSON дървовидна структура.

Три режима на обработка:

  • process_toc_with_page_numbers (със съдържание + с номера на страници): Използвайте LLM, за да преобразувате оригиналното съдържание в структуриран JSON, картографирайте логическите номера на страници към физическите номера на страници
  • process_no_toc (без съдържание): LLM директно извежда йерархичната структура от основното съдържание
  • process_toc_no_page_numbers (със съдържание, но без номера на страници): Извличане на структурата и след това извеждане и допълване на физическите номера на страници

3.2 Модел на данни за дървовидна структура

Всеки възел в дървото съдържа: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (масив от дъщерни възли) и други полета.

3.3 Механизъм за извличане чрез разсъждения

Етапът на извличане не зависи от никакви векторни изчисления. LLM получава въпроса на потребителя и структурата на дървото на документа, разсъждава въз основа на заглавията и резюметата на възлите и извежда своя „мисловен процес“ и списък със съответните node_id. След това системата извлича пълния текст на съответните възли от node_map според node_id, обединява ги като контекст и ги предава на LLM, за да генерира окончателния отговор.

4. Основни акценти в дизайна

  • Архитектура без вектори: Не са необходими embedding модели и векторни бази данни, което намалява разходите за инфраструктура и опростява внедряването
  • Запазване на естествената структура на документа: Организиране на съдържанието според присъщите глави/подглави/подсекции на документа, избягване на загуба на контекст между парчета
  • Обяснимост на извличането: Всяко извличане връща пълна верига на разсъждения, което има очевидни предимства в сценарии с високи изисквания за съответствие

5. Резултати от оценката

Mafin 2.5 е система за въпроси и отговори върху финансови документи, базирана на PageIndex. Представянето на FinanceBench (тест за оценка на QA на финансови документи) достига 98,7% точност, което е много по-високо от Perplexity (45%) и GPT-4o (31%).

6. Подходящи сценарии

Подходящо за: Дълги документи с ясна йерархична структура (финансови отчети, разпоредби, учебници, ръководства), с дължина от десетки до стотици страници

Неподходящо за: Документи без структурирано съдържание, сканирани копия без OCR, документи, състоящи се предимно от таблици/диаграми, сценарии, изискващи реакция в реално време в рамките на милисекунди

7. Заключение

Основният принос на PageIndex е предлагането на практична парадигма за RAG без вектори: изграждане на дървовиден индекс с естествената структура на документа и използване на LLM разсъждения вместо търсене на векторна сходство. Това решение се представя отлично в сценарии с професионални дълги документи с ясна йерархична структура, а обяснимостта и възможността за одит са значително по-добри от традиционните решения.

Published in Technology

You Might Also Like

Как да използвате облачни технологии: Пълен наръчник за изграждане на вашата първа облачна инфраструктураTechnology

Как да използвате облачни технологии: Пълен наръчник за изграждане на вашата първа облачна инфраструктура

Как да използвате облачни технологии: Пълен наръчник за изграждане на вашата първа облачна инфраструктура Въведение С ус...

Предупреждение! Бащата на Claude Code открито заявява: След месец, без Plan Mode, титлата софтуерен инженер ще изчезнеTechnology

Предупреждение! Бащата на Claude Code открито заявява: След месец, без Plan Mode, титлата софтуерен инженер ще изчезне

Предупреждение! Бащата на Claude Code открито заявява: След месец, без Plan Mode, титлата софтуерен инженер ще изчезне ...

2026年 Top 10 深度学习资源推荐Technology

2026年 Top 10 深度学习资源推荐

2026年 Top 10 深度学习资源推荐 С развитието на дълбокото обучение в различни области, все повече учебни ресурси и инструменти се ...

2026年 Top 10 AI 代理:核心卖点解析Technology

2026年 Top 10 AI 代理:核心卖点解析

2026年 Top 10 AI 代理:核心卖点解析 引言 С бързото развитие на изкуствения интелект, AI агенти (AI Agents) станаха гореща тема в тех...

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力Technology

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力 В днешния ден, когато технологиите напредват с бързи темпове, изкуственият интелект (AI...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 В бързо развиващата се област на облачните изчисления, Amazon Web Services (AWS) винаги е била л...