PageIndex Ítarleg greining: RAG án vigra með rökfærslu, lætur gervigreind lesa skjöl eins og mannlegur sérfræðingur

PageIndex er RAG ramma án vigra, byggður á rökfærslu, sem Vectify AI teymið hefur opnað (GitHub 14.8k+ stjörnur). Hann umbreytir löngum skjölum í stigskipt trévísitölu og notar LLM til að framkvæma rökfærsluleit á trénu, og nær 98,7% nákvæmni á FinanceBench fjármálaskjala spurningakeppnisviðmiðinu.

1. Bakgrunnur: Fimm vandamál hefðbundins RAG

RAG er orðið staðallinn fyrir stór líkanforrit. Helstu lausnir skipta skjalinu í bút af fastri lengd í forvinnslustiginu, umbreyta þeim í vigra með embedding líkani og geyma þá í vigragagnagrunni; þegar spurt er, er sama embedding gert við spurningu notandans og síðan er Top-K niðurstöðum kallað fram með vigralíkindi leit, og þær settar saman sem inntaks samhengi LLM.

Þetta ferli virkar vel fyrir stuttan texta og almennar aðstæður, en í sérhæfðum löngum skjölum (fjárhagsskýrslur, lög og reglugerðir, tæknilegar handbækur osfrv.) kemur í ljós fimm grundvallarvandamál:

1) Líkindum ≠ Tengslum. Vigraleit gerir ráð fyrir að „merkingarlega líkasti textabúturinn = viðeigandi svarheimild“, en í sérhæfðum skjölum deila margar málsgreinar nálægri merkingu en eru mjög mismunandi í mikilvægum smáatriðum.

2) Hörð uppskipting eyðileggur heilleika samhengis. Að skipta skjalinu í fasta glugga af 512 eða 1024 táknum mun stytta setningar, málsgreinar og jafnvel heila rökrétta hluta, sem leiðir til þess að mikilvægt samhengi tapast.

3) Misræmi á milli fyrirspurnar og þekkingarrýmis. Fyrirspurn notandans tjáir „tilgang“ frekar en „efni“, og query embedding og document embedding eru í mismunandi merkingarrýmum.

4) Getur ekki unnið úr tilvísunum í skjalinu. „Sjá viðauka G“ og „sjá töflu 5.3“ eru algengar tilvísanir í sérhæfðum skjölum. Það er engin merkingarleg líkindi á milli þessara tilvísana og tilvísunarefnisins og vigraleit getur ekki passað þær.

5) Sjálfstæðar fyrirspurnir, geta ekki nýtt sér samtalsferil. Í hvert skipti sem leitað er er query meðhöndlað sem sjálfstæð beiðni og getur ekki sameinað samhengi fyrri samtala til að gera stigvaxandi leit.

2. Heildararkitektúr PageIndex

PageIndex er RAG rammi án vigra (Vectorless), byggður á rökfærslu (Reasoning-based). Kjarnahugmyndin er: Í stað þess að láta líkanið gera nálgunarsamsvörun í vigrarými, er betra að láta líkanið rökstyðja skipulagða framsetningu skjalsins – ákveða „hvert á að horfa“, frekar en bara „hvað lítur út fyrir að vera líkt“.

PageIndex líkir eftir því hvernig mannlegur sérfræðingur les langt skjal: fyrst er farið yfir efnisyfirlitið, síðan er ákveðið hvaða kaflar eru viðeigandi út frá spurningunni og farið dýpra lag fyrir lag þar til markmiðið er fundið. Þetta ferli er náð í tveimur skrefum:

Byggja trébyggingarvísitölu: Umbreyta PDF/Markdown skjali í stigskipt JSON tré, svipað og „efnisyfirlit fínstillt fyrir LLM“
Rökfærsluleit í tré: LLM rökstyður og siglir um tréið út frá spurningunni, staðsetur viðeigandi hnút, dregur út efni og býr til svar

3. Sundurliðun kjarnaeininga

3.1 PDF vinnsluleiðsla

PDF vinnsluleiðsla PageIndex er skipulögð af tree_parser() fallinu. Kjarnaflæðið felur í sér: efnisyfirlitsgreiningu (þrjár hamgreinar), viðbót við formála, umbreytingu flata lista í stigskipt tré, endurtekin undirdeild stórra hnúta, auðgun hnúta, JSON trébyggingarúttak.

Þrjár vinnslumátar:

process_toc_with_page_numbers (með efnisyfirliti + með blaðsíðunúmerum): notar LLM til að umbreyta upprunalegu efnisyfirlitinu í skipulagt JSON, kortleggja rökrétt blaðsíðunúmer yfir í raunveruleg blaðsíðunúmer
process_no_toc (án efnisyfirlits): LLM ályktar beint stigskipt uppbyggingu út frá meginmálinu
process_toc_no_page_numbers (með efnisyfirliti en án blaðsíðunúmera): dregur út uppbyggingu og ályktar síðan til að bæta við raunverulegum blaðsíðunúmerum

3.2 Gagnamódel trébyggingar

Hver hnútur í trénu inniheldur: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (fylki undirhnúta) og aðra reiti.

3.3 Rökfærsluleitarbúnaður

Leitarstigið treystir ekki á neina vigraútreikninga. LLM tekur við spurningu notandans og trébyggingu skjalsins, rökstyður út frá hnútatitlum og útdrætti og gefur út „hugsunarferli“ og lista yfir viðeigandi node_id. Kerfið dregur síðan út samsvarandi fullan texta hnútanna úr node_map út frá node_id, setur þá saman í samhengi og afhendir LLM til að búa til endanlegt svar.

4. Helstu hönnunarhápunktar

Arkitektúr án vigra: Engin þörf á embedding líkani og vigragagnagrunni, sem dregur úr kostnaði við innviði og einfaldar dreifingu
Heldur náttúrulegri uppbyggingu skjalsins: Skipuleggur efni eftir eðlislægum köflum/undirköflum/undirköflum skjalsins, forðast samhengistap yfir hluta
Útskýranleiki leitar: Hver leit skilar fullri rökfærslukeðju, sem hefur augljósa kosti í aðstæðum með miklar kröfur um samræmi

5. Mat niðurstaðna

Mafin 2.5 er fjármálaskjala spurningakerfi byggt á PageIndex. Frammistaðan á FinanceBench (viðmiðunarpróf fyrir fjármálaskjala QA) nær 98,7% nákvæmni, sem er mun hærra en Perplexity (45%) og GPT-4o (31%).

6. Gildissvið

Hentar fyrir: Löng skjöl með skýra stigskiptingu (fjárhagsskýrslur, reglugerðir, kennslubækur, handbækur), á bilinu tugir til hundruð blaðsíðna

Hentar ekki fyrir: Skjöl án skipulags efnis, skönnuð skjöl sem ekki hafa verið OCR unnin, skjöl sem aðallega samanstanda af töflum/myndritum, aðstæður sem krefjast rauntímasvörunar á millisekúndu fresti

7. Samantekt

Kjarnaframlag PageIndex felst í því að leggja til hagnýtt RAG mynstur án vigra: byggja trévísitölu með náttúrulegri uppbyggingu skjalsins og nota LLM rökfærslu í stað vigralíkinda leitar. Þessi lausn stendur sig vel í sérhæfðum löngum skjölum með skýra stigskiptingu og útskýranleiki og endurskoðunarhæfni er einnig verulega betri en hefðbundnar lausnir.

PageIndex Ítarleg greining: RAG án vigra með rökfærslu, lætur gervigreind lesa skjöl eins og mannlegur sérfræðingur

1. Bakgrunnur: Fimm vandamál hefðbundins RAG

2. Heildararkitektúr PageIndex

3. Sundurliðun kjarnaeininga

3.1 PDF vinnsluleiðsla

3.2 Gagnamódel trébyggingar

3.3 Rökfærsluleitarbúnaður

4. Helstu hönnunarhápunktar

5. Mat niðurstaðna

6. Gildissvið

7. Samantekt

You Might Also Like

Claude Code Buddy breytingarleiðbeiningar: Hvernig á að fá glitrandi goðsagnir dýr

Obsidian hefur gefið út Defuddle, sem lyftir Obsidian Web Clipper á nýjan hæð

OpenAI tilkynnti skyndilega "þrjú í eitt": Vafri + forritun + ChatGPT sameining, innanhúss viðurkenndu þau að hafa farið rangt að síðasta árið

2026, ekki lengur að þrýsta á sjálfan sig "sjálfsaga"! Gerðu þessar 8 litlu hluti, heilsa kemur náttúrulega

Mæðurnar sem reyna að léttast en ná ekki árangri, eru örugglega að lenda í þessu

AI Browser 24 tíma stöðugleika leiðbeiningar