PageIndex mélyreható elemzése: Vektor nélküli következtetés alapú RAG, amely lehetővé teszi, hogy a mesterséges intelligencia úgy olvassa a dokumentumokat, mint egy emberi szakértő
A PageIndex a Vectify AI csapata által nyílt forráskóddal közzétett vektor nélküli, következtetés alapú RAG keretrendszer (GitHub 14.8k+ csillag). A hosszú dokumentumokat hierarchikus fa indexekké alakítja, és az LLM-et használja a fán való következtetéses kereséshez, a FinanceBench pénzügyi dokumentum kérdés-válasz benchmarkon 98,7%-os pontosságot ér el.

1. Háttér: A hagyományos RAG öt fájdalompontja
A RAG a nagyméretű modellalkalmazások de facto szabványává vált. A főbb megoldások az előfeldolgozási szakaszban a dokumentumokat rögzített hosszúságú chunk-okra vágják, embedding modellekkel vektorokká alakítják, és vektoradatbázisba mentik; lekérdezéskor a felhasználói kérdésekhez hasonló embedding-et készítenek, majd vektorhasonlósági kereséssel visszahívják a Top-K eredményeket, és összefűzik az LLM bemeneti kontextusává.
Ez a folyamat rövid szövegek és általános forgatókönyvek esetén hatékony, de a speciális, hosszú dokumentumok (pénzügyi jelentések, jogszabályok, műszaki kézikönyvek stb.) esetén öt alapvető problémát tár fel:
1) Hasonlóság ≠ Relevancia. A vektoros keresés feltételezi, hogy „a szemantikailag leghasonlóbb szövegrész = a legrelevánsabb válaszforrás”, de a szakmai dokumentumokban nagyszámú bekezdés osztozik a közel azonos szemantikán, de a lényeges részletekben jelentősen eltérnek.
2) A kemény darabolás megszakítja a kontextus integritását. A dokumentumok 512 vagy 1024 tokenes rögzített ablakban történő felosztása megszakítja a mondatokat, bekezdéseket, sőt a teljes logikai szegmenseket, ami a kulcsfontosságú kontextus elvesztéséhez vezet.
3) A lekérdezési szándék és a tudástér eltérése. A felhasználók lekérdezései „szándékot” fejeznek ki, nem „tartalmat”, a query embedding és a document embedding különböző szemantikai terekben helyezkednek el.
4) Nem képes kezelni a dokumentumon belüli hivatkozásokat. A szakmai dokumentumokban gyakoriak az olyan hivatkozások, mint a „lásd a G. mellékletet” vagy a „lásd az 5.3. táblázatot”, amelyek és a hivatkozott tartalom között nincs szemantikai hasonlóság, a vektoros keresés nem tudja őket párosítani.
5) Független lekérdezés, nem tudja kihasználni a párbeszéd előzményeit. Minden egyes keresés a query-t független kérésként kezeli, nem tudja kombinálni az előző párbeszéd kontextusával a fokozatos kereséshez.
2. A PageIndex általános architektúrája
A PageIndex egy vektor nélküli (Vectorless), következtetés alapú (Reasoning-based) RAG keretrendszer. Alapgondolata: ahelyett, hogy a modellnek közelítő egyezést kellene végeznie a vektortérben, inkább a dokumentum strukturált ábrázolásán kell következtetnie – eldönteni, hogy „hová nézzen”, nem pedig csak azt, hogy „mi tűnik hasonlónak”.
A PageIndex szimulálja, ahogyan egy emberi szakértő olvas egy hosszú dokumentumot: először áttekinti a tartalomjegyzéket, a kérdés alapján eldönti, mely fejezetek relevánsak, majd rétegről rétegre haladva elmélyül, amíg meg nem találja a célzott tartalmat. Ez a folyamat két lépésben valósul meg:
- Fa struktúra index felépítése: A PDF/Markdown dokumentumokat hierarchikus JSON fává alakítja, hasonlóan az „LLM-re optimalizált tartalomjegyzékhez”
- Következtetéses fa keresés: Az LLM a kérdés alapján következtetve navigál a fán, meghatározza a releváns csomópontokat, kinyeri a tartalmat és választ generál

3. A fő modulok lebontása
3.1 PDF feldolgozó futószalag
A PageIndex PDF feldolgozó futószalagját a tree_parser() függvény rendezi, a fő folyamat a következőket tartalmazza: tartalomjegyzék észlelése (három módág), bevezető kiegészítése, lapos lista átalakítása hierarchikus fává, nagy csomópontok rekurzív felosztása, csomópontok bővítése, JSON fa struktúra kimenet.
Három feldolgozási mód:
- process_toc_with_page_numbers (van tartalomjegyzék + van oldalszám): az LLM a nyers tartalomjegyzéket strukturált JSON-né alakítja, a logikai oldalszámokat a fizikai oldalszámokhoz rendeli
- process_no_toc (nincs tartalomjegyzék): az LLM közvetlenül a szövegtörzsből következteti ki a hierarchikus struktúrát
- process_toc_no_page_numbers (van tartalomjegyzék, de nincs oldalszám): a struktúra kinyerése után következteti ki és egészíti ki a fizikai oldalszámokat
3.2 Fa struktúra adatmodell
A fa minden csomópontja a következő mezőket tartalmazza: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (gyermekcsomópontok tömbje) stb.
3.3 Következtetéses keresési mechanizmus
A keresési szakasz nem támaszkodik semmilyen vektoros számításra. Az LLM megkapja a felhasználói kérdést és a dokumentum fa struktúráját, a csomópontok címei és összefoglalói alapján következtet, és kiadja a „gondolkodási folyamatát” és a releváns node_id listát. A rendszer ezután a node_id alapján kinyeri a megfelelő csomópontok teljes szövegét a node_map-ből, összefűzi a kontextust, és átadja az LLM-nek a végső válasz generálásához.

4. A fő tervezési fénypontok
- Vektor nélküli architektúra: Nincs szükség embedding modellre és vektoradatbázisra, csökkenti az infrastruktúra költségeit, egyszerűsíti a telepítést
- Megőrzi a dokumentum természetes struktúráját: A tartalmat a dokumentum eredendő fejezetei/alszakaszai/alfejezetei szerint szervezi, elkerülve a chunk-ok közötti kontextusvesztést
- A keresés értelmezhetősége: Minden keresés teljes következtetési láncot ad vissza, ami jelentős előnyt jelent a magas megfelelőségi követelményekkel rendelkező forgatókönyvekben
5. Értékelési eredmények
A Mafin 2.5 egy PageIndex alapú pénzügyi dokumentum kérdés-válasz rendszer. A FinanceBench-en (pénzügyi dokumentum QA benchmark teszt) 98,7%-os pontosságot ért el, ami messze felülmúlja a Perplexity (45%) és a GPT-4o (31%) teljesítményét.

6. Alkalmazási területek
Alkalmas: Világos hierarchikus struktúrával rendelkező hosszú dokumentumok (pénzügyi jelentések, jogszabályok, tankönyvek, kézikönyvek), terjedelme több tíz oldaltól több száz oldalig terjed
Nem alkalmas: Strukturálatlan tartalmú dokumentumok, OCR-rel nem feldolgozott szkennelt dokumentumok, táblázatokból/diagramokból álló dokumentumok, millisekundumos valós idejű válaszidőt igénylő forgatókönyvek
7. Összegzés
A PageIndex fő hozzájárulása egy praktikus vektor nélküli RAG paradigma bevezetése: a dokumentum természetes struktúrájával fa indexet épít, és az LLM következtetésével helyettesíti a vektoros hasonlósági keresést. Ez a megoldás kiválóan teljesít a világos hierarchikus struktúrával rendelkező speciális, hosszú dokumentumok esetén, és az értelmezhetősége és auditálhatósága is jelentősen jobb, mint a hagyományos megoldásoké.





