PageIndex-ийн гүнзгий шинжилгээ: Векторгүй үндэслэлт RAG, хиймэл оюуныг хүний мэргэжилтэн шиг баримт бичиг уншуулдаг
PageIndex бол Vectify AI багийн нээлттэй эхийн векторгүй, үндэслэлт RAG фрэймворк юм (GitHub 14.8k+ stars). Энэ нь урт баримт бичгийг шатлалт модны индекс болгон хувиргаж, LLM-ээр модон дээр үндэслэлт хайлт хийж, FinanceBench санхүүгийн баримт бичгийн асуулт хариултын жишигт 98.7% -ийн нарийвчлалтай хүрдэг.

1. Дүгнэлт: Уламжлалт RAG-ийн таван сул тал
RAG нь том загварын хэрэглээний бодит стандарт болжээ. Гол шийдэл нь баримт бичгийг урьдчилан боловсруулах шатанд тогтмол урттай хэсэг болгон хувааж, embedding загвараар вектор болгон хувиргаж, вектор мэдээллийн санд хадгалдаг; хайлт хийх үед хэрэглэгчийн асуултад ижил embedding хийж, дараа нь векторын төстэй байдлаар Top-K үр дүнг эргүүлэн татаж, LLM-ийн оролтын контекст болгон нэгтгэдэг.
Энэхүү үйл явц нь богино текст болон ерөнхий нөхцөлд үр дүнтэй боловч мэргэжлийн урт баримт бичиг (санхүүгийн тайлан, хууль тогтоомж, техникийн гарын авлага гэх мэт) нөхцөлд таван үндсэн асуудал илэрдэг:
1) Төстэй байдал ≠ Холбогдолтой байдал. Вектор хайлт нь "утга зүйн хувьд хамгийн төстэй текст хэсэг = хамгийн холбогдолтой хариултын эх сурвалж" гэж үздэг боловч мэргэжлийн баримт бичигт олон тооны хэсэг нь ойролцоо утгатай боловч гол нарийн ширийн зүйлээрээ маш их ялгаатай байдаг.
2) Хатуу хуваалт нь контекстийн бүрэн бүтэн байдлыг эвддэг. Баримт бичгийг 512 эсвэл 1024 токенийн тогтмол цонхоор хуваах нь өгүүлбэр, догол мөр, бүр логик хэсгийг таслах бөгөөд энэ нь гол контекстийг алдахад хүргэдэг.
3) Хүсэлтийн зорилго ба мэдлэгийн орон зай зөрүүтэй. Хэрэглэгчийн хайлтын илэрхийлэл нь "агуулга" биш харин "зорилго" бөгөөд query embedding ба document embedding нь өөр өөр утга зүйн орон зайд байдаг.
4) Баримт бичгийн доторх ишлэлийг боловсруулж чадахгүй. Мэргэжлийн баримт бичигт "Дэлгэрэнгүйг G хавсралтаас үзнэ үү", "5.3-р хүснэгтийг үзнэ үү" гэх мэт ишлэлүүд нийтлэг байдаг бөгөөд эдгээр ишлэлүүд нь ишлэгдсэн агуулгатай утга зүйн төстэй байдалгүй тул вектор хайлт тохирохгүй.
5) Бие даасан хайлт, ярианы түүхийг ашиглах боломжгүй. Хайлт бүр нь query-г бие даасан хүсэлт гэж үздэг бөгөөд өмнөх ярианы контексттэй хослуулан аажмаар хайлт хийх боломжгүй.
2. PageIndex-ийн ерөнхий бүтэц
PageIndex бол векторгүй (Vectorless), үндэслэлд суурилсан (Reasoning-based) RAG фрэймворк юм. Үүний гол санаа нь: загварыг вектор орон зайд ойролцоо тохирох хайлт хийлгэхийн оронд баримт бичгийн бүтэцтэй илэрхийлэл дээр үндэслэл гаргах - "хаашаа харахаа" шийдэх, зүгээр л "юу төстэй харагдаж байгааг" биш.
PageIndex нь хүний мэргэжилтэн урт баримт бичгийг унших аргыг дуурайдаг: эхлээд агуулгыг үзэж, асуултад үндэслэн холбогдох бүлгүүдийг тодорхойлж, зорилтот агуулгыг олох хүртэл давхарлан гүнзгийрүүлдэг. Энэ үйл явц нь хоёр алхамаар хэрэгждэг:
- Модны бүтэцтэй индекс үүсгэх: PDF/Markdown баримт бичгийг шатлалт JSON мод болгон хувиргах, "LLM-д зориулсан оновчтой агуулга"-тай төстэй
- Үндэслэлт модны хайлт: LLM нь асуултад үндэслэн модон дээр үндэслэлт навигаци хийж, холбогдох зангилааг байршуулж, агуулгыг гаргаж аваад хариулт үүсгэдэг

3. Гол модулиудыг задлах
3.1 PDF боловсруулах шугам
PageIndex-ийн PDF боловсруулах шугамыг tree_parser() функцээр зохион байгуулдаг бөгөөд гол үйл явц нь: агуулгын жагсаалтыг илрүүлэх (гурван горимын салаа), өмнөх үгийг нэмэх, хавтгай жагсаалтыг шатлалт мод болгон хувиргах, том зангилааг рекурсивээр нарийвчлах, зангилааг баяжуулах, JSON модны бүтцийг гаргах.
Гурван боловсруулах горим:
- process_toc_with_page_numbers (агуулгатай + хуудасны дугаартай): LLM-ээр анхны агуулгыг бүтэцтэй JSON болгон хувиргаж, логик хуудасны дугаарыг физик хуудасны дугаартай холбох
- process_no_toc (агуулгагүй): LLM-ээр үндсэн агуулгаас шууд шатлалт бүтцийг таамаглах
- process_toc_no_page_numbers (агуулгатай боловч хуудасны дугааргүй): бүтцийг гаргаж авсны дараа физик хуудасны дугаарыг нэмж таамаглах
3.2 Модны бүтэцтэй өгөгдлийн загвар
Модны зангилаа бүр нь: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (дэд зангилааны массив) гэх мэт талбаруудыг агуулдаг.
3.3 Үндэслэлт хайлтын механизм
Хайлтын үе шатанд ямар нэгэн вектор тооцоололд тулгуурладаггүй. LLM нь хэрэглэгчийн асуулт болон баримт бичгийн модны бүтцийг хүлээн авч, зангилааны гарчиг болон хураангуйд үндэслэн үндэслэл гаргаж, өөрийн "бодох үйл явц" болон холбогдох node_id жагсаалтыг гаргадаг. Дараа нь систем нь node_id-д үндэслэн node_map-аас харгалзах зангилааны бүрэн текстийг гаргаж авч, контекст болгон нэгтгэж LLM-д эцсийн хариултыг үүсгэхийг даалгадаг.

4. Гол дизайны онцлогууд
- Векторгүй бүтэц: embedding загвар болон вектор мэдээллийн сан шаардлагагүй, дэд бүтцийн зардлыг бууруулж, байршуулалтыг хялбаршуулдаг
- Баримт бичгийн байгалийн бүтцийг хадгалах: агуулгыг баримт бичгийн өөрийн бүлэг/дэд бүлэг/дэд бүлгээр зохион байгуулж, chunk хоорондын контекстийн алдагдалаас зайлсхийдэг
- Хайлтын тайлбарлах боломж: хайлт бүр нь бүрэн үндэслэлийн гинжийг буцааж өгдөг бөгөөд энэ нь нийцтэй байдлын шаардлага өндөр байгаа нөхцөлд тодорхой давуу талтай
5. Үнэлгээний үр дүн
Mafin 2.5 бол PageIndex-д суурилсан санхүүгийн баримт бичгийн асуулт хариултын систем юм. FinanceBench (санхүүгийн баримт бичгийн QA жишиг тест)-д 98.7% -ийн нарийвчлалтай үзүүлэлттэй байгаа нь Perplexity (45%) болон GPT-4o (31%)-оос хамаагүй илүү юм.

6. Тохиромжтой нөхцөл
Тохиромжтой: тодорхой шатлалт бүтэцтэй урт баримт бичиг (санхүүгийн тайлан, хууль тогтоомж, сурах бичиг, гарын авлага), хэмжээ нь хэдэн арваас хэдэн зуун хуудас
Тохиромжгүй: бүтэцгүй агуулгатай баримт бичиг, OCR хийгдээгүй сканнердсан хуулбар, хүснэгт/диаграммд суурилсан баримт бичиг, миллисекундын бодит цагийн хариу шаардлагатай нөхцөл
7. Дүгнэлт
PageIndex-ийн гол хувь нэмэр нь векторгүй RAG парадигмыг практик байдлаар санал болгож байгаа явдал юм: баримт бичгийн байгалийн бүтцээр модны индекс үүсгэж, LLM үндэслэлээр векторын төстэй байдлын хайлтыг орлуулах. Энэхүү шийдэл нь тодорхой шатлалт бүтэцтэй мэргэжлийн урт баримт бичгийн нөхцөлд маш сайн ажилладаг бөгөөд тайлбарлах боломжтой байдал болон аудит хийх боломж нь уламжлалт шийдлээс хамаагүй дээр юм.





