PageIndex - задълбочен анализ: RAG без векторно разсъждение, позволяващ на AI да чете документи като човешки експерт

PageIndex е RAG рамка без вектори, базирана на разсъждения, с отворен код от екипа на Vectify AI (GitHub 14.8k+ звезди). Тя преобразува дълги документи в йерархичен дървовиден индекс и използва LLM за извличане на информация чрез разсъждения върху дървото, достигайки 98,7% точност на FinanceBench, еталон за въпроси и отговори върху финансови документи.

1. Предистория: Петте болезнени точки на традиционния RAG

RAG се е превърнал във фактически стандарт за приложения с големи езикови модели. Основното решение е да се разделят документите на парчета с фиксирана дължина в етапа на предварителна обработка, да се преобразуват във вектори чрез embedding модел и да се съхранят във векторна база данни; при заявка се прави същото embedding на въпроса на потребителя и след това се извличат Top-K резултатите чрез търсене на векторна сходство, които се обединяват като входен контекст за LLM.

Този процес е ефективен за кратки текстове и общи сценарии, но в сценарии с професионални дълги документи (финансови отчети, закони и разпоредби, технически ръководства и т.н.) се разкриват пет основни проблема:

1) Сходство ≠ Релевантност. Векторното извличане предполага, че „най-семантично подобният текстов блок = най-релевантният източник на отговор“, но в професионалните документи голям брой параграфи споделят приблизителна семантика, но се различават значително в ключови детайли.

2) Твърдото разделяне на блокове нарушава целостта на контекста. Разделянето на документи на фиксирани прозорци от 512 или 1024 токена ще прекъсне изречения, параграфи или дори цели логически секции, което ще доведе до загуба на ключов контекст.

3) Разминаване между намерението на заявката и пространството на знанията. Заявките на потребителите изразяват „намерение“, а не „съдържание“, а query embedding и document embedding са в различни семантични пространства.

4) Невъзможност за обработка на цитати в документа. В професионалните документи са често срещани цитати като „вижте приложение G“, „вижте таблица 5.3“ и т.н. Между тези цитати и цитираното съдържание няма семантична прилика и векторното извличане не може да ги съпостави.

5) Независими заявки, невъзможност за използване на историята на разговорите. Всяко извличане третира заявката като независимо искане и не може да комбинира контекста на предишни разговори за прогресивно извличане.

2. Обща архитектура на PageIndex

PageIndex е RAG рамка без вектори (Vectorless), базирана на разсъждения (Reasoning-based). Основната идея е: вместо да позволяваме на модела да прави приблизително съвпадение във векторното пространство, по-добре е да позволим на модела да разсъждава върху структурираното представяне на документа - да реши „къде да погледне“, а не просто „какво изглежда подобно“.

PageIndex симулира начина, по който човешки експерт чете дълъг документ: първо преглежда съдържанието, преценява съответните глави според въпроса и навлиза постепенно, докато намери целевото съдържание. Този процес се реализира в две стъпки:

Изграждане на дървовиден индекс: Преобразуване на PDF/Markdown документи в йерархично JSON дърво, подобно на „оптимизирано за LLM съдържание“
Извличане чрез разсъждения в дървото: LLM навигира в дървото чрез разсъждения според въпроса, локализира съответните възли, извлича съдържание и генерира отговори

3. Разглобяване на основните модули

3.1 Тръбопровод за обработка на PDF

Тръбопроводът за обработка на PDF на PageIndex е организиран от функцията tree_parser(), като основният процес включва: откриване на съдържание (три режима на разклоняване), допълване на предговора, преобразуване на плосък списък в йерархично дърво, рекурсивно подразделяне на големи възли, обогатяване на възлите, изход на JSON дървовидна структура.

Три режима на обработка:

process_toc_with_page_numbers (със съдържание + с номера на страници): Използвайте LLM, за да преобразувате оригиналното съдържание в структуриран JSON, картографирайте логическите номера на страници към физическите номера на страници
process_no_toc (без съдържание): LLM директно извежда йерархичната структура от основното съдържание
process_toc_no_page_numbers (със съдържание, но без номера на страници): Извличане на структурата и след това извеждане и допълване на физическите номера на страници

3.2 Модел на данни за дървовидна структура

Всеки възел в дървото съдържа: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (масив от дъщерни възли) и други полета.

3.3 Механизъм за извличане чрез разсъждения

Етапът на извличане не зависи от никакви векторни изчисления. LLM получава въпроса на потребителя и структурата на дървото на документа, разсъждава въз основа на заглавията и резюметата на възлите и извежда своя „мисловен процес“ и списък със съответните node_id. След това системата извлича пълния текст на съответните възли от node_map според node_id, обединява ги като контекст и ги предава на LLM, за да генерира окончателния отговор.

4. Основни акценти в дизайна

Архитектура без вектори: Не са необходими embedding модели и векторни бази данни, което намалява разходите за инфраструктура и опростява внедряването
Запазване на естествената структура на документа: Организиране на съдържанието според присъщите глави/подглави/подсекции на документа, избягване на загуба на контекст между парчета
Обяснимост на извличането: Всяко извличане връща пълна верига на разсъждения, което има очевидни предимства в сценарии с високи изисквания за съответствие

5. Резултати от оценката

Mafin 2.5 е система за въпроси и отговори върху финансови документи, базирана на PageIndex. Представянето на FinanceBench (тест за оценка на QA на финансови документи) достига 98,7% точност, което е много по-високо от Perplexity (45%) и GPT-4o (31%).

6. Подходящи сценарии

Подходящо за: Дълги документи с ясна йерархична структура (финансови отчети, разпоредби, учебници, ръководства), с дължина от десетки до стотици страници

Неподходящо за: Документи без структурирано съдържание, сканирани копия без OCR, документи, състоящи се предимно от таблици/диаграми, сценарии, изискващи реакция в реално време в рамките на милисекунди

7. Заключение

Основният принос на PageIndex е предлагането на практична парадигма за RAG без вектори: изграждане на дървовиден индекс с естествената структура на документа и използване на LLM разсъждения вместо търсене на векторна сходство. Това решение се представя отлично в сценарии с професионални дълги документи с ясна йерархична структура, а обяснимостта и възможността за одит са значително по-добри от традиционните решения.

PageIndex - задълбочен анализ: RAG без векторно разсъждение, позволяващ на AI да чете документи като човешки експерт

1. Предистория: Петте болезнени точки на традиционния RAG

2. Обща архитектура на PageIndex

3. Разглобяване на основните модули

3.1 Тръбопровод за обработка на PDF

3.2 Модел на данни за дървовидна структура

3.3 Механизъм за извличане чрез разсъждения

4. Основни акценти в дизайна

5. Резултати от оценката

6. Подходящи сценарии

7. Заключение

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново ниво

OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен курс през последната година

2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естествено

Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тук

AI Browser 24小时稳定运行指南