PageIndex Ítarleg greining: RAG án vigra með rökfærslu, lætur gervigreind lesa skjöl eins og mannlegur sérfræðingur
PageIndex er RAG ramma án vigra, byggður á rökfærslu, sem Vectify AI teymið hefur opnað (GitHub 14.8k+ stjörnur). Hann umbreytir löngum skjölum í stigskipt trévísitölu og notar LLM til að framkvæma rökfærsluleit á trénu, og nær 98,7% nákvæmni á FinanceBench fjármálaskjala spurningakeppnisviðmiðinu.

1. Bakgrunnur: Fimm vandamál hefðbundins RAG
RAG er orðið staðallinn fyrir stór líkanforrit. Helstu lausnir skipta skjalinu í bút af fastri lengd í forvinnslustiginu, umbreyta þeim í vigra með embedding líkani og geyma þá í vigragagnagrunni; þegar spurt er, er sama embedding gert við spurningu notandans og síðan er Top-K niðurstöðum kallað fram með vigralíkindi leit, og þær settar saman sem inntaks samhengi LLM.
Þetta ferli virkar vel fyrir stuttan texta og almennar aðstæður, en í sérhæfðum löngum skjölum (fjárhagsskýrslur, lög og reglugerðir, tæknilegar handbækur osfrv.) kemur í ljós fimm grundvallarvandamál:
1) Líkindum ≠ Tengslum. Vigraleit gerir ráð fyrir að „merkingarlega líkasti textabúturinn = viðeigandi svarheimild“, en í sérhæfðum skjölum deila margar málsgreinar nálægri merkingu en eru mjög mismunandi í mikilvægum smáatriðum.
2) Hörð uppskipting eyðileggur heilleika samhengis. Að skipta skjalinu í fasta glugga af 512 eða 1024 táknum mun stytta setningar, málsgreinar og jafnvel heila rökrétta hluta, sem leiðir til þess að mikilvægt samhengi tapast.
3) Misræmi á milli fyrirspurnar og þekkingarrýmis. Fyrirspurn notandans tjáir „tilgang“ frekar en „efni“, og query embedding og document embedding eru í mismunandi merkingarrýmum.
4) Getur ekki unnið úr tilvísunum í skjalinu. „Sjá viðauka G“ og „sjá töflu 5.3“ eru algengar tilvísanir í sérhæfðum skjölum. Það er engin merkingarleg líkindi á milli þessara tilvísana og tilvísunarefnisins og vigraleit getur ekki passað þær.
5) Sjálfstæðar fyrirspurnir, geta ekki nýtt sér samtalsferil. Í hvert skipti sem leitað er er query meðhöndlað sem sjálfstæð beiðni og getur ekki sameinað samhengi fyrri samtala til að gera stigvaxandi leit.
2. Heildararkitektúr PageIndex
PageIndex er RAG rammi án vigra (Vectorless), byggður á rökfærslu (Reasoning-based). Kjarnahugmyndin er: Í stað þess að láta líkanið gera nálgunarsamsvörun í vigrarými, er betra að láta líkanið rökstyðja skipulagða framsetningu skjalsins – ákveða „hvert á að horfa“, frekar en bara „hvað lítur út fyrir að vera líkt“.
PageIndex líkir eftir því hvernig mannlegur sérfræðingur les langt skjal: fyrst er farið yfir efnisyfirlitið, síðan er ákveðið hvaða kaflar eru viðeigandi út frá spurningunni og farið dýpra lag fyrir lag þar til markmiðið er fundið. Þetta ferli er náð í tveimur skrefum:
- Byggja trébyggingarvísitölu: Umbreyta PDF/Markdown skjali í stigskipt JSON tré, svipað og „efnisyfirlit fínstillt fyrir LLM“
- Rökfærsluleit í tré: LLM rökstyður og siglir um tréið út frá spurningunni, staðsetur viðeigandi hnút, dregur út efni og býr til svar

3. Sundurliðun kjarnaeininga
3.1 PDF vinnsluleiðsla
PDF vinnsluleiðsla PageIndex er skipulögð af tree_parser() fallinu. Kjarnaflæðið felur í sér: efnisyfirlitsgreiningu (þrjár hamgreinar), viðbót við formála, umbreytingu flata lista í stigskipt tré, endurtekin undirdeild stórra hnúta, auðgun hnúta, JSON trébyggingarúttak.
Þrjár vinnslumátar:
- process_toc_with_page_numbers (með efnisyfirliti + með blaðsíðunúmerum): notar LLM til að umbreyta upprunalegu efnisyfirlitinu í skipulagt JSON, kortleggja rökrétt blaðsíðunúmer yfir í raunveruleg blaðsíðunúmer
- process_no_toc (án efnisyfirlits): LLM ályktar beint stigskipt uppbyggingu út frá meginmálinu
- process_toc_no_page_numbers (með efnisyfirliti en án blaðsíðunúmera): dregur út uppbyggingu og ályktar síðan til að bæta við raunverulegum blaðsíðunúmerum
3.2 Gagnamódel trébyggingar
Hver hnútur í trénu inniheldur: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (fylki undirhnúta) og aðra reiti.
3.3 Rökfærsluleitarbúnaður
Leitarstigið treystir ekki á neina vigraútreikninga. LLM tekur við spurningu notandans og trébyggingu skjalsins, rökstyður út frá hnútatitlum og útdrætti og gefur út „hugsunarferli“ og lista yfir viðeigandi node_id. Kerfið dregur síðan út samsvarandi fullan texta hnútanna úr node_map út frá node_id, setur þá saman í samhengi og afhendir LLM til að búa til endanlegt svar.

4. Helstu hönnunarhápunktar
- Arkitektúr án vigra: Engin þörf á embedding líkani og vigragagnagrunni, sem dregur úr kostnaði við innviði og einfaldar dreifingu
- Heldur náttúrulegri uppbyggingu skjalsins: Skipuleggur efni eftir eðlislægum köflum/undirköflum/undirköflum skjalsins, forðast samhengistap yfir hluta
- Útskýranleiki leitar: Hver leit skilar fullri rökfærslukeðju, sem hefur augljósa kosti í aðstæðum með miklar kröfur um samræmi
5. Mat niðurstaðna
Mafin 2.5 er fjármálaskjala spurningakerfi byggt á PageIndex. Frammistaðan á FinanceBench (viðmiðunarpróf fyrir fjármálaskjala QA) nær 98,7% nákvæmni, sem er mun hærra en Perplexity (45%) og GPT-4o (31%).

6. Gildissvið
Hentar fyrir: Löng skjöl með skýra stigskiptingu (fjárhagsskýrslur, reglugerðir, kennslubækur, handbækur), á bilinu tugir til hundruð blaðsíðna
Hentar ekki fyrir: Skjöl án skipulags efnis, skönnuð skjöl sem ekki hafa verið OCR unnin, skjöl sem aðallega samanstanda af töflum/myndritum, aðstæður sem krefjast rauntímasvörunar á millisekúndu fresti
7. Samantekt
Kjarnaframlag PageIndex felst í því að leggja til hagnýtt RAG mynstur án vigra: byggja trévísitölu með náttúrulegri uppbyggingu skjalsins og nota LLM rökfærslu í stað vigralíkinda leitar. Þessi lausn stendur sig vel í sérhæfðum löngum skjölum með skýra stigskiptingu og útskýranleiki og endurskoðunarhæfni er einnig verulega betri en hefðbundnar lausnir.





