PageIndex-ийн гүнзгий шинжилгээ: Векторгүй үндэслэлт RAG, хиймэл оюуныг хүний мэргэжилтэн шиг баримт бичиг уншуулдаг

2/15/2026
5 min read

PageIndex бол Vectify AI багийн нээлттэй эхийн векторгүй, үндэслэлт RAG фрэймворк юм (GitHub 14.8k+ stars). Энэ нь урт баримт бичгийг шатлалт модны индекс болгон хувиргаж, LLM-ээр модон дээр үндэслэлт хайлт хийж, FinanceBench санхүүгийн баримт бичгийн асуулт хариултын жишигт 98.7% -ийн нарийвчлалтай хүрдэг.

1. Дүгнэлт: Уламжлалт RAG-ийн таван сул тал

RAG нь том загварын хэрэглээний бодит стандарт болжээ. Гол шийдэл нь баримт бичгийг урьдчилан боловсруулах шатанд тогтмол урттай хэсэг болгон хувааж, embedding загвараар вектор болгон хувиргаж, вектор мэдээллийн санд хадгалдаг; хайлт хийх үед хэрэглэгчийн асуултад ижил embedding хийж, дараа нь векторын төстэй байдлаар Top-K үр дүнг эргүүлэн татаж, LLM-ийн оролтын контекст болгон нэгтгэдэг.

Энэхүү үйл явц нь богино текст болон ерөнхий нөхцөлд үр дүнтэй боловч мэргэжлийн урт баримт бичиг (санхүүгийн тайлан, хууль тогтоомж, техникийн гарын авлага гэх мэт) нөхцөлд таван үндсэн асуудал илэрдэг:

1) Төстэй байдал ≠ Холбогдолтой байдал. Вектор хайлт нь "утга зүйн хувьд хамгийн төстэй текст хэсэг = хамгийн холбогдолтой хариултын эх сурвалж" гэж үздэг боловч мэргэжлийн баримт бичигт олон тооны хэсэг нь ойролцоо утгатай боловч гол нарийн ширийн зүйлээрээ маш их ялгаатай байдаг.

2) Хатуу хуваалт нь контекстийн бүрэн бүтэн байдлыг эвддэг. Баримт бичгийг 512 эсвэл 1024 токенийн тогтмол цонхоор хуваах нь өгүүлбэр, догол мөр, бүр логик хэсгийг таслах бөгөөд энэ нь гол контекстийг алдахад хүргэдэг.

3) Хүсэлтийн зорилго ба мэдлэгийн орон зай зөрүүтэй. Хэрэглэгчийн хайлтын илэрхийлэл нь "агуулга" биш харин "зорилго" бөгөөд query embedding ба document embedding нь өөр өөр утга зүйн орон зайд байдаг.

4) Баримт бичгийн доторх ишлэлийг боловсруулж чадахгүй. Мэргэжлийн баримт бичигт "Дэлгэрэнгүйг G хавсралтаас үзнэ үү", "5.3-р хүснэгтийг үзнэ үү" гэх мэт ишлэлүүд нийтлэг байдаг бөгөөд эдгээр ишлэлүүд нь ишлэгдсэн агуулгатай утга зүйн төстэй байдалгүй тул вектор хайлт тохирохгүй.

5) Бие даасан хайлт, ярианы түүхийг ашиглах боломжгүй. Хайлт бүр нь query-г бие даасан хүсэлт гэж үздэг бөгөөд өмнөх ярианы контексттэй хослуулан аажмаар хайлт хийх боломжгүй.

2. PageIndex-ийн ерөнхий бүтэц

PageIndex бол векторгүй (Vectorless), үндэслэлд суурилсан (Reasoning-based) RAG фрэймворк юм. Үүний гол санаа нь: загварыг вектор орон зайд ойролцоо тохирох хайлт хийлгэхийн оронд баримт бичгийн бүтэцтэй илэрхийлэл дээр үндэслэл гаргах - "хаашаа харахаа" шийдэх, зүгээр л "юу төстэй харагдаж байгааг" биш.

PageIndex нь хүний мэргэжилтэн урт баримт бичгийг унших аргыг дуурайдаг: эхлээд агуулгыг үзэж, асуултад үндэслэн холбогдох бүлгүүдийг тодорхойлж, зорилтот агуулгыг олох хүртэл давхарлан гүнзгийрүүлдэг. Энэ үйл явц нь хоёр алхамаар хэрэгждэг:

  • Модны бүтэцтэй индекс үүсгэх: PDF/Markdown баримт бичгийг шатлалт JSON мод болгон хувиргах, "LLM-д зориулсан оновчтой агуулга"-тай төстэй
  • Үндэслэлт модны хайлт: LLM нь асуултад үндэслэн модон дээр үндэслэлт навигаци хийж, холбогдох зангилааг байршуулж, агуулгыг гаргаж аваад хариулт үүсгэдэг

3. Гол модулиудыг задлах

3.1 PDF боловсруулах шугам

PageIndex-ийн PDF боловсруулах шугамыг tree_parser() функцээр зохион байгуулдаг бөгөөд гол үйл явц нь: агуулгын жагсаалтыг илрүүлэх (гурван горимын салаа), өмнөх үгийг нэмэх, хавтгай жагсаалтыг шатлалт мод болгон хувиргах, том зангилааг рекурсивээр нарийвчлах, зангилааг баяжуулах, JSON модны бүтцийг гаргах.

Гурван боловсруулах горим:

  • process_toc_with_page_numbers (агуулгатай + хуудасны дугаартай): LLM-ээр анхны агуулгыг бүтэцтэй JSON болгон хувиргаж, логик хуудасны дугаарыг физик хуудасны дугаартай холбох
  • process_no_toc (агуулгагүй): LLM-ээр үндсэн агуулгаас шууд шатлалт бүтцийг таамаглах
  • process_toc_no_page_numbers (агуулгатай боловч хуудасны дугааргүй): бүтцийг гаргаж авсны дараа физик хуудасны дугаарыг нэмж таамаглах

3.2 Модны бүтэцтэй өгөгдлийн загвар

Модны зангилаа бүр нь: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (дэд зангилааны массив) гэх мэт талбаруудыг агуулдаг.

3.3 Үндэслэлт хайлтын механизм

Хайлтын үе шатанд ямар нэгэн вектор тооцоололд тулгуурладаггүй. LLM нь хэрэглэгчийн асуулт болон баримт бичгийн модны бүтцийг хүлээн авч, зангилааны гарчиг болон хураангуйд үндэслэн үндэслэл гаргаж, өөрийн "бодох үйл явц" болон холбогдох node_id жагсаалтыг гаргадаг. Дараа нь систем нь node_id-д үндэслэн node_map-аас харгалзах зангилааны бүрэн текстийг гаргаж авч, контекст болгон нэгтгэж LLM-д эцсийн хариултыг үүсгэхийг даалгадаг.

4. Гол дизайны онцлогууд

  • Векторгүй бүтэц: embedding загвар болон вектор мэдээллийн сан шаардлагагүй, дэд бүтцийн зардлыг бууруулж, байршуулалтыг хялбаршуулдаг
  • Баримт бичгийн байгалийн бүтцийг хадгалах: агуулгыг баримт бичгийн өөрийн бүлэг/дэд бүлэг/дэд бүлгээр зохион байгуулж, chunk хоорондын контекстийн алдагдалаас зайлсхийдэг
  • Хайлтын тайлбарлах боломж: хайлт бүр нь бүрэн үндэслэлийн гинжийг буцааж өгдөг бөгөөд энэ нь нийцтэй байдлын шаардлага өндөр байгаа нөхцөлд тодорхой давуу талтай

5. Үнэлгээний үр дүн

Mafin 2.5 бол PageIndex-д суурилсан санхүүгийн баримт бичгийн асуулт хариултын систем юм. FinanceBench (санхүүгийн баримт бичгийн QA жишиг тест)-д 98.7% -ийн нарийвчлалтай үзүүлэлттэй байгаа нь Perplexity (45%) болон GPT-4o (31%)-оос хамаагүй илүү юм.

6. Тохиромжтой нөхцөл

Тохиромжтой: тодорхой шатлалт бүтэцтэй урт баримт бичиг (санхүүгийн тайлан, хууль тогтоомж, сурах бичиг, гарын авлага), хэмжээ нь хэдэн арваас хэдэн зуун хуудас

Тохиромжгүй: бүтэцгүй агуулгатай баримт бичиг, OCR хийгдээгүй сканнердсан хуулбар, хүснэгт/диаграммд суурилсан баримт бичиг, миллисекундын бодит цагийн хариу шаардлагатай нөхцөл

7. Дүгнэлт

PageIndex-ийн гол хувь нэмэр нь векторгүй RAG парадигмыг практик байдлаар санал болгож байгаа явдал юм: баримт бичгийн байгалийн бүтцээр модны индекс үүсгэж, LLM үндэслэлээр векторын төстэй байдлын хайлтыг орлуулах. Энэхүү шийдэл нь тодорхой шатлалт бүтэцтэй мэргэжлийн урт баримт бичгийн нөхцөлд маш сайн ажилладаг бөгөөд тайлбарлах боломжтой байдал болон аудит хийх боломж нь уламжлалт шийдлээс хамаагүй дээр юм.

Published in Technology

You Might Also Like

Хэрхэн үүлний тооцооллын технологийг ашиглах вэ: Таны анхны үүлний инфраструкцийг байгуулах бүрэн гарын авлагаTechnology

Хэрхэн үүлний тооцооллын технологийг ашиглах вэ: Таны анхны үүлний инфраструкцийг байгуулах бүрэн гарын авлага

[[HTMLPLACEHOLDER0]] [[HTMLPLACEHOLDER1]] [[HTMLPLACEHOLDER2]] [[HTMLPLACEHOLDER3]] [[HTMLPLACEHOLDER4]] [[HTMLPLACEHOLD...

Сэрэмжлүүлэг! Claude Code-ийн эцэг шууд хэллээ: 1 сарын дараа Plan Mode хэрэггүй болно, програм хангамжийн инженерийн цол алга болноTechnology

Сэрэмжлүүлэг! Claude Code-ийн эцэг шууд хэллээ: 1 сарын дараа Plan Mode хэрэггүй болно, програм хангамжийн инженерийн цол алга болно

Сэрэмжлүүлэг! Claude Code-ийн эцэг шууд хэллээ: 1 сарын дараа Plan Mode хэрэггүй болно, програм хангамжийн инженерийн цо...

2026年 Top 10 深度学习资源推荐Technology

2026年 Top 10 深度学习资源推荐

2026年 Top 10 深度学习资源推荐 深度 суралцах хурдан хөгжиж байгаа тул олон төрлийн суралцах материал, хэрэгсэл гарч ирж байна. Энэ ...

2026 оны Топ 10 AI агент: Гол борлуулалтын цэгүүдийн тайлбарTechnology

2026 оны Топ 10 AI агент: Гол борлуулалтын цэгүүдийн тайлбар

2026 оны Топ 10 AI агент: Гол борлуулалтын цэгүүдийн тайлбар Оршил Хиймэл оюун ухааны хурдтай хөгжлийн хамт, AI агентууд...

2026 оны шилдэг 10 AI хэрэгслийг санал болгож байна: Хүний оюун ухааны жинхэнэ потенциалыг чөлөөлөхTechnology

2026 оны шилдэг 10 AI хэрэгслийг санал болгож байна: Хүний оюун ухааны жинхэнэ потенциалыг чөлөөлөх

2026 оны шилдэг 10 AI хэрэгслийг санал болгож байна: Хүний оюун ухааны жинхэнэ потенциалыг чөлөөлөх Технологи хурдтай хө...

2026 оны Top 10 AWS хэрэгсэл ба нөөцийн саналTechnology

2026 оны Top 10 AWS хэрэгсэл ба нөөцийн санал

2026 оны Top 10 AWS хэрэгсэл ба нөөцийн санал Хурдан хөгжиж буй үүлний тооцооллын салбарт Amazon Web Services (AWS) нь т...