PageIndex mélyreható elemzése: Vektor nélküli következtetés alapú RAG, amely lehetővé teszi, hogy a mesterséges intelligencia úgy olvassa a dokumentumokat, mint egy emberi szakértő

A PageIndex a Vectify AI csapata által nyílt forráskóddal közzétett vektor nélküli, következtetés alapú RAG keretrendszer (GitHub 14.8k+ csillag). A hosszú dokumentumokat hierarchikus fa indexekké alakítja, és az LLM-et használja a fán való következtetéses kereséshez, a FinanceBench pénzügyi dokumentum kérdés-válasz benchmarkon 98,7%-os pontosságot ér el.

1. Háttér: A hagyományos RAG öt fájdalompontja

A RAG a nagyméretű modellalkalmazások de facto szabványává vált. A főbb megoldások az előfeldolgozási szakaszban a dokumentumokat rögzített hosszúságú chunk-okra vágják, embedding modellekkel vektorokká alakítják, és vektoradatbázisba mentik; lekérdezéskor a felhasználói kérdésekhez hasonló embedding-et készítenek, majd vektorhasonlósági kereséssel visszahívják a Top-K eredményeket, és összefűzik az LLM bemeneti kontextusává.

Ez a folyamat rövid szövegek és általános forgatókönyvek esetén hatékony, de a speciális, hosszú dokumentumok (pénzügyi jelentések, jogszabályok, műszaki kézikönyvek stb.) esetén öt alapvető problémát tár fel:

1) Hasonlóság ≠ Relevancia. A vektoros keresés feltételezi, hogy „a szemantikailag leghasonlóbb szövegrész = a legrelevánsabb válaszforrás”, de a szakmai dokumentumokban nagyszámú bekezdés osztozik a közel azonos szemantikán, de a lényeges részletekben jelentősen eltérnek.

2) A kemény darabolás megszakítja a kontextus integritását. A dokumentumok 512 vagy 1024 tokenes rögzített ablakban történő felosztása megszakítja a mondatokat, bekezdéseket, sőt a teljes logikai szegmenseket, ami a kulcsfontosságú kontextus elvesztéséhez vezet.

3) A lekérdezési szándék és a tudástér eltérése. A felhasználók lekérdezései „szándékot” fejeznek ki, nem „tartalmat”, a query embedding és a document embedding különböző szemantikai terekben helyezkednek el.

4) Nem képes kezelni a dokumentumon belüli hivatkozásokat. A szakmai dokumentumokban gyakoriak az olyan hivatkozások, mint a „lásd a G. mellékletet” vagy a „lásd az 5.3. táblázatot”, amelyek és a hivatkozott tartalom között nincs szemantikai hasonlóság, a vektoros keresés nem tudja őket párosítani.

5) Független lekérdezés, nem tudja kihasználni a párbeszéd előzményeit. Minden egyes keresés a query-t független kérésként kezeli, nem tudja kombinálni az előző párbeszéd kontextusával a fokozatos kereséshez.

2. A PageIndex általános architektúrája

A PageIndex egy vektor nélküli (Vectorless), következtetés alapú (Reasoning-based) RAG keretrendszer. Alapgondolata: ahelyett, hogy a modellnek közelítő egyezést kellene végeznie a vektortérben, inkább a dokumentum strukturált ábrázolásán kell következtetnie – eldönteni, hogy „hová nézzen”, nem pedig csak azt, hogy „mi tűnik hasonlónak”.

A PageIndex szimulálja, ahogyan egy emberi szakértő olvas egy hosszú dokumentumot: először áttekinti a tartalomjegyzéket, a kérdés alapján eldönti, mely fejezetek relevánsak, majd rétegről rétegre haladva elmélyül, amíg meg nem találja a célzott tartalmat. Ez a folyamat két lépésben valósul meg:

Fa struktúra index felépítése: A PDF/Markdown dokumentumokat hierarchikus JSON fává alakítja, hasonlóan az „LLM-re optimalizált tartalomjegyzékhez”
Következtetéses fa keresés: Az LLM a kérdés alapján következtetve navigál a fán, meghatározza a releváns csomópontokat, kinyeri a tartalmat és választ generál

3. A fő modulok lebontása

3.1 PDF feldolgozó futószalag

A PageIndex PDF feldolgozó futószalagját a tree_parser() függvény rendezi, a fő folyamat a következőket tartalmazza: tartalomjegyzék észlelése (három módág), bevezető kiegészítése, lapos lista átalakítása hierarchikus fává, nagy csomópontok rekurzív felosztása, csomópontok bővítése, JSON fa struktúra kimenet.

Három feldolgozási mód:

process_toc_with_page_numbers (van tartalomjegyzék + van oldalszám): az LLM a nyers tartalomjegyzéket strukturált JSON-né alakítja, a logikai oldalszámokat a fizikai oldalszámokhoz rendeli
process_no_toc (nincs tartalomjegyzék): az LLM közvetlenül a szövegtörzsből következteti ki a hierarchikus struktúrát
process_toc_no_page_numbers (van tartalomjegyzék, de nincs oldalszám): a struktúra kinyerése után következteti ki és egészíti ki a fizikai oldalszámokat

3.2 Fa struktúra adatmodell

A fa minden csomópontja a következő mezőket tartalmazza: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (gyermekcsomópontok tömbje) stb.

3.3 Következtetéses keresési mechanizmus

A keresési szakasz nem támaszkodik semmilyen vektoros számításra. Az LLM megkapja a felhasználói kérdést és a dokumentum fa struktúráját, a csomópontok címei és összefoglalói alapján következtet, és kiadja a „gondolkodási folyamatát” és a releváns node_id listát. A rendszer ezután a node_id alapján kinyeri a megfelelő csomópontok teljes szövegét a node_map-ből, összefűzi a kontextust, és átadja az LLM-nek a végső válasz generálásához.

4. A fő tervezési fénypontok

Vektor nélküli architektúra: Nincs szükség embedding modellre és vektoradatbázisra, csökkenti az infrastruktúra költségeit, egyszerűsíti a telepítést
Megőrzi a dokumentum természetes struktúráját: A tartalmat a dokumentum eredendő fejezetei/alszakaszai/alfejezetei szerint szervezi, elkerülve a chunk-ok közötti kontextusvesztést
A keresés értelmezhetősége: Minden keresés teljes következtetési láncot ad vissza, ami jelentős előnyt jelent a magas megfelelőségi követelményekkel rendelkező forgatókönyvekben

5. Értékelési eredmények

A Mafin 2.5 egy PageIndex alapú pénzügyi dokumentum kérdés-válasz rendszer. A FinanceBench-en (pénzügyi dokumentum QA benchmark teszt) 98,7%-os pontosságot ért el, ami messze felülmúlja a Perplexity (45%) és a GPT-4o (31%) teljesítményét.

6. Alkalmazási területek

Alkalmas: Világos hierarchikus struktúrával rendelkező hosszú dokumentumok (pénzügyi jelentések, jogszabályok, tankönyvek, kézikönyvek), terjedelme több tíz oldaltól több száz oldalig terjed

Nem alkalmas: Strukturálatlan tartalmú dokumentumok, OCR-rel nem feldolgozott szkennelt dokumentumok, táblázatokból/diagramokból álló dokumentumok, millisekundumos valós idejű válaszidőt igénylő forgatókönyvek

7. Összegzés

A PageIndex fő hozzájárulása egy praktikus vektor nélküli RAG paradigma bevezetése: a dokumentum természetes struktúrájával fa indexet épít, és az LLM következtetésével helyettesíti a vektoros hasonlósági keresést. Ez a megoldás kiválóan teljesít a világos hierarchikus struktúrával rendelkező speciális, hosszú dokumentumok esetén, és az értelmezhetősége és auditálhatósága is jelentősen jobb, mint a hagyományos megoldásoké.

PageIndex mélyreható elemzése: Vektor nélküli következtetés alapú RAG, amely lehetővé teszi, hogy a mesterséges intelligencia úgy olvassa a dokumentumokat, mint egy emberi szakértő

1. Háttér: A hagyományos RAG öt fájdalompontja

2. A PageIndex általános architektúrája

3. A fő modulok lebontása

3.1 PDF feldolgozó futószalag

3.2 Fa struktúra adatmodell

3.3 Következtetéses keresési mechanizmus

4. A fő tervezési fénypontok

5. Értékelési eredmények

6. Alkalmazási területek

7. Összegzés

You Might Also Like

Claude Code Buddy módosítási útmutató: Hogyan szerezd meg a fénylő legendás szörnyet

Obsidian bemutatta a Defuddle-t, amely új magasságokba emeli az Obsidian Web Clipper-t

OpenAI hirtelen bejelentette a "három az egyben"-t: böngésző + programozás + ChatGPT egyesítése, a belső körök elismerik, hogy az elmúlt évben rossz irányba haladtak

2026, ne kényszerítsd magad a 'fegyelemre'! Csináld meg ezt a 8 apróságot, és a egészség magától jön

Azok a mamák, akik keményen próbálnak fogyni, de nem sikerül, biztosan itt buktak el

AI Browser 24 órás stabil működési útmutató