PageIndex mélyreható elemzése: Vektor nélküli következtetés alapú RAG, amely lehetővé teszi, hogy a mesterséges intelligencia úgy olvassa a dokumentumokat, mint egy emberi szakértő

2/15/2026
5 min read

A PageIndex a Vectify AI csapata által nyílt forráskóddal közzétett vektor nélküli, következtetés alapú RAG keretrendszer (GitHub 14.8k+ csillag). A hosszú dokumentumokat hierarchikus fa indexekké alakítja, és az LLM-et használja a fán való következtetéses kereséshez, a FinanceBench pénzügyi dokumentum kérdés-válasz benchmarkon 98,7%-os pontosságot ér el.

1. Háttér: A hagyományos RAG öt fájdalompontja

A RAG a nagyméretű modellalkalmazások de facto szabványává vált. A főbb megoldások az előfeldolgozási szakaszban a dokumentumokat rögzített hosszúságú chunk-okra vágják, embedding modellekkel vektorokká alakítják, és vektoradatbázisba mentik; lekérdezéskor a felhasználói kérdésekhez hasonló embedding-et készítenek, majd vektorhasonlósági kereséssel visszahívják a Top-K eredményeket, és összefűzik az LLM bemeneti kontextusává.

Ez a folyamat rövid szövegek és általános forgatókönyvek esetén hatékony, de a speciális, hosszú dokumentumok (pénzügyi jelentések, jogszabályok, műszaki kézikönyvek stb.) esetén öt alapvető problémát tár fel:

1) Hasonlóság ≠ Relevancia. A vektoros keresés feltételezi, hogy „a szemantikailag leghasonlóbb szövegrész = a legrelevánsabb válaszforrás”, de a szakmai dokumentumokban nagyszámú bekezdés osztozik a közel azonos szemantikán, de a lényeges részletekben jelentősen eltérnek.

2) A kemény darabolás megszakítja a kontextus integritását. A dokumentumok 512 vagy 1024 tokenes rögzített ablakban történő felosztása megszakítja a mondatokat, bekezdéseket, sőt a teljes logikai szegmenseket, ami a kulcsfontosságú kontextus elvesztéséhez vezet.

3) A lekérdezési szándék és a tudástér eltérése. A felhasználók lekérdezései „szándékot” fejeznek ki, nem „tartalmat”, a query embedding és a document embedding különböző szemantikai terekben helyezkednek el.

4) Nem képes kezelni a dokumentumon belüli hivatkozásokat. A szakmai dokumentumokban gyakoriak az olyan hivatkozások, mint a „lásd a G. mellékletet” vagy a „lásd az 5.3. táblázatot”, amelyek és a hivatkozott tartalom között nincs szemantikai hasonlóság, a vektoros keresés nem tudja őket párosítani.

5) Független lekérdezés, nem tudja kihasználni a párbeszéd előzményeit. Minden egyes keresés a query-t független kérésként kezeli, nem tudja kombinálni az előző párbeszéd kontextusával a fokozatos kereséshez.

2. A PageIndex általános architektúrája

A PageIndex egy vektor nélküli (Vectorless), következtetés alapú (Reasoning-based) RAG keretrendszer. Alapgondolata: ahelyett, hogy a modellnek közelítő egyezést kellene végeznie a vektortérben, inkább a dokumentum strukturált ábrázolásán kell következtetnie – eldönteni, hogy „hová nézzen”, nem pedig csak azt, hogy „mi tűnik hasonlónak”.

A PageIndex szimulálja, ahogyan egy emberi szakértő olvas egy hosszú dokumentumot: először áttekinti a tartalomjegyzéket, a kérdés alapján eldönti, mely fejezetek relevánsak, majd rétegről rétegre haladva elmélyül, amíg meg nem találja a célzott tartalmat. Ez a folyamat két lépésben valósul meg:

  • Fa struktúra index felépítése: A PDF/Markdown dokumentumokat hierarchikus JSON fává alakítja, hasonlóan az „LLM-re optimalizált tartalomjegyzékhez”
  • Következtetéses fa keresés: Az LLM a kérdés alapján következtetve navigál a fán, meghatározza a releváns csomópontokat, kinyeri a tartalmat és választ generál

3. A fő modulok lebontása

3.1 PDF feldolgozó futószalag

A PageIndex PDF feldolgozó futószalagját a tree_parser() függvény rendezi, a fő folyamat a következőket tartalmazza: tartalomjegyzék észlelése (három módág), bevezető kiegészítése, lapos lista átalakítása hierarchikus fává, nagy csomópontok rekurzív felosztása, csomópontok bővítése, JSON fa struktúra kimenet.

Három feldolgozási mód:

  • process_toc_with_page_numbers (van tartalomjegyzék + van oldalszám): az LLM a nyers tartalomjegyzéket strukturált JSON-né alakítja, a logikai oldalszámokat a fizikai oldalszámokhoz rendeli
  • process_no_toc (nincs tartalomjegyzék): az LLM közvetlenül a szövegtörzsből következteti ki a hierarchikus struktúrát
  • process_toc_no_page_numbers (van tartalomjegyzék, de nincs oldalszám): a struktúra kinyerése után következteti ki és egészíti ki a fizikai oldalszámokat

3.2 Fa struktúra adatmodell

A fa minden csomópontja a következő mezőket tartalmazza: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (gyermekcsomópontok tömbje) stb.

3.3 Következtetéses keresési mechanizmus

A keresési szakasz nem támaszkodik semmilyen vektoros számításra. Az LLM megkapja a felhasználói kérdést és a dokumentum fa struktúráját, a csomópontok címei és összefoglalói alapján következtet, és kiadja a „gondolkodási folyamatát” és a releváns node_id listát. A rendszer ezután a node_id alapján kinyeri a megfelelő csomópontok teljes szövegét a node_map-ből, összefűzi a kontextust, és átadja az LLM-nek a végső válasz generálásához.

4. A fő tervezési fénypontok

  • Vektor nélküli architektúra: Nincs szükség embedding modellre és vektoradatbázisra, csökkenti az infrastruktúra költségeit, egyszerűsíti a telepítést
  • Megőrzi a dokumentum természetes struktúráját: A tartalmat a dokumentum eredendő fejezetei/alszakaszai/alfejezetei szerint szervezi, elkerülve a chunk-ok közötti kontextusvesztést
  • A keresés értelmezhetősége: Minden keresés teljes következtetési láncot ad vissza, ami jelentős előnyt jelent a magas megfelelőségi követelményekkel rendelkező forgatókönyvekben

5. Értékelési eredmények

A Mafin 2.5 egy PageIndex alapú pénzügyi dokumentum kérdés-válasz rendszer. A FinanceBench-en (pénzügyi dokumentum QA benchmark teszt) 98,7%-os pontosságot ért el, ami messze felülmúlja a Perplexity (45%) és a GPT-4o (31%) teljesítményét.

6. Alkalmazási területek

Alkalmas: Világos hierarchikus struktúrával rendelkező hosszú dokumentumok (pénzügyi jelentések, jogszabályok, tankönyvek, kézikönyvek), terjedelme több tíz oldaltól több száz oldalig terjed

Nem alkalmas: Strukturálatlan tartalmú dokumentumok, OCR-rel nem feldolgozott szkennelt dokumentumok, táblázatokból/diagramokból álló dokumentumok, millisekundumos valós idejű válaszidőt igénylő forgatókönyvek

7. Összegzés

A PageIndex fő hozzájárulása egy praktikus vektor nélküli RAG paradigma bevezetése: a dokumentum természetes struktúrájával fa indexet épít, és az LLM következtetésével helyettesíti a vektoros hasonlósági keresést. Ez a megoldás kiválóan teljesít a világos hierarchikus struktúrával rendelkező speciális, hosszú dokumentumok esetén, és az értelmezhetősége és auditálhatósága is jelentősen jobb, mint a hagyományos megoldásoké.

Published in Technology

You Might Also Like

Hogyan használjuk a felhőalapú számítástechnikai technológiát: Az első felhőinfrastruktúra teljes útmutatójaTechnology

Hogyan használjuk a felhőalapú számítástechnikai technológiát: Az első felhőinfrastruktúra teljes útmutatója

[[HTMLPLACEHOLDER0]] [[HTMLPLACEHOLDER1]] [[HTMLPLACEHOLDER2]] [[HTMLPLACEHOLDER3]] [[HTMLPLACEHOLDER4]] [[HTMLPLACEHOLD...

Figyelmeztetés! Claude Code atyja kijelenti: 1 hónap múlva a Plan Mode használata nélkül eltűnik a szoftvermérnök címTechnology

Figyelmeztetés! Claude Code atyja kijelenti: 1 hónap múlva a Plan Mode használata nélkül eltűnik a szoftvermérnök cím

Figyelmeztetés! Claude Code atyja kijelenti: 1 hónap múlva a Plan Mode használata nélkül eltűnik a szoftvermérnök cím N...

2026年 Top 10 深度学习资源推荐Technology

2026年 Top 10 深度学习资源推荐

2026年 Top 10 深度学习资源推荐 随着深度学习在各个领域的迅速发展,越来越多的学习资源和工具涌现出来。本文将为您推荐2026年最值得关注的十个深度学习资源,帮助您在这一领域中快速成长。 1. Coursera Deep Learn...

2026-os Top 10 AI ügynök: A kulcsfontosságú jellemzők elemzéseTechnology

2026-os Top 10 AI ügynök: A kulcsfontosságú jellemzők elemzése

2026-os Top 10 AI ügynök: A kulcsfontosságú jellemzők elemzése Bevezetés A mesterséges intelligencia gyors fejlődésével ...

2026-os Top 10 AI Eszköz Ajánlás: Az Mesterséges Intelligencia Valódi Potenciáljának KiaknázásaTechnology

2026-os Top 10 AI Eszköz Ajánlás: Az Mesterséges Intelligencia Valódi Potenciáljának Kiaknázása

2026-os Top 10 AI Eszköz Ajánlás: Az Mesterséges Intelligencia Valódi Potenciáljának Kiaknázása A technológia gyors fejl...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 在快速发展的云计算领域,Amazon Web Services (AWS) 一直是领军者,提供丰富的服务和工具,帮助开发者、企业和技术专家在云上有效工作。以下是2026年值得关注的十大AWS工...