પેજઇન્ડેક્સનું ઊંડાણપૂર્વક વિશ્લેષણ: વેક્ટર વગરનું અનુમાન આધારિત RAG, AI ને માનવ નિષ્ણાતની જેમ દસ્તાવેજો વાંચવા દે છે

2/15/2026
5 min read

પેજઇન્ડેક્સ એ વેક્ટિફાય AI ટીમ દ્વારા ઓપન સોર્સ કરાયેલ વેક્ટર વગરનું, અનુમાન આધારિત RAG ફ્રેમવર્ક છે (GitHub 14.8k+ સ્ટાર્સ). તે લાંબા દસ્તાવેજોને હાયરાર્કિકલ ટ્રી ઇન્ડેક્સમાં રૂપાંતરિત કરે છે, ટ્રી પર અનુમાનિત પુનઃપ્રાપ્તિ માટે LLM નો ઉપયોગ કરે છે, અને FinanceBench ફાઇનાન્સિયલ ડોક્યુમેન્ટ પ્રશ્ન અને જવાબના બેન્ચમાર્ક પર 98.7% ચોકસાઈ હાંસલ કરે છે.

1. પૃષ્ઠભૂમિ: પરંપરાગત RAG ના પાંચ પીડા બિંદુઓ

RAG એ મોટા મોડેલ એપ્લિકેશન્સ માટે વાસ્તવિક ધોરણ બની ગયું છે. મુખ્ય પ્રવાહના ઉકેલો પ્રી-પ્રોસેસિંગ તબક્કામાં દસ્તાવેજોને નિશ્ચિત લંબાઈના ચંકમાં વિભાજિત કરે છે, એમ્બેડિંગ મોડેલ દ્વારા વેક્ટરમાં રૂપાંતરિત કરે છે અને વેક્ટર ડેટાબેઝમાં સંગ્રહિત કરે છે; ક્વેરી કરતી વખતે, તે વપરાશકર્તાના પ્રશ્નોનું સમાન એમ્બેડિંગ કરે છે, અને પછી વેક્ટર સમાનતા શોધ દ્વારા ટોપ-કે પરિણામોને પાછા બોલાવે છે અને LLM ના ઇનપુટ સંદર્ભ તરીકે જોડે છે.

આ પ્રક્રિયા ટૂંકા ટેક્સ્ટ અને સામાન્ય દૃશ્યોમાં અસરકારક છે, પરંતુ વ્યાવસાયિક લાંબા દસ્તાવેજો (નાણાકીય અહેવાલો, કાયદા અને નિયમો, તકનીકી માર્ગદર્શિકાઓ, વગેરે) ના કિસ્સામાં, તે પાંચ મૂળભૂત સમસ્યાઓ દર્શાવે છે:

1) સમાનતા ≠ સુસંગતતા. વેક્ટર પુનઃપ્રાપ્તિ ધારે છે કે "સિમેન્ટિકલી સૌથી સમાન ટેક્સ્ટ બ્લોક = સૌથી સુસંગત જવાબ સ્ત્રોત", પરંતુ વ્યાવસાયિક દસ્તાવેજોમાં, મોટી સંખ્યામાં ફકરાઓ લગભગ સમાન સિમેન્ટિક્સ શેર કરે છે પરંતુ મહત્વપૂર્ણ વિગતોમાં મોટા તફાવતો ધરાવે છે.

2) હાર્ડ ચંકિંગ સંદર્ભની અખંડિતતાને નષ્ટ કરે છે. 512 અથવા 1024 ટોકન્સની નિશ્ચિત વિન્ડો દ્વારા દસ્તાવેજોને વિભાજિત કરવાથી વાક્યો, ફકરાઓ અને સમગ્ર તાર્કિક વિભાગો કપાઈ જાય છે, જેના કારણે મહત્વપૂર્ણ સંદર્ભ ખોવાઈ જાય છે.

3) ક્વેરી હેતુ અને જ્ઞાન અવકાશ ખોટી રીતે ગોઠવાયેલા છે. વપરાશકર્તાની ક્વેરી "હેતુ" વ્યક્ત કરે છે, "સામગ્રી" નહીં, અને ક્વેરી એમ્બેડિંગ અને ડોક્યુમેન્ટ એમ્બેડિંગ અલગ સિમેન્ટિક સ્પેસમાં છે.

4) દસ્તાવેજમાંના સંદર્ભોને હેન્ડલ કરવામાં અસમર્થતા. વ્યાવસાયિક દસ્તાવેજોમાં સામાન્ય રીતે "પરિશિષ્ટ G જુઓ", "કોષ્ટક 5.3 નો સંદર્ભ લો" વગેરે જેવા સંદર્ભો હોય છે. આ સંદર્ભો અને સંદર્ભિત સામગ્રી વચ્ચે કોઈ સિમેન્ટિક સમાનતા હોતી નથી, અને વેક્ટર પુનઃપ્રાપ્તિ મેચ કરી શકતી નથી.

5) સ્વતંત્ર ક્વેરી, વાતચીતના ઇતિહાસનો ઉપયોગ કરવામાં અસમર્થતા. દરેક પુનઃપ્રાપ્તિ ક્વેરીને સ્વતંત્ર વિનંતી તરીકે ગણે છે અને અગાઉની વાતચીતના સંદર્ભ સાથે ક્રમિક પુનઃપ્રાપ્તિને જોડી શકતી નથી.

2. પેજઇન્ડેક્સનું એકંદર આર્કિટેક્ચર

પેજઇન્ડેક્સ એ વેક્ટર વગરનું (Vectorless), અનુમાન આધારિત (Reasoning-based) RAG ફ્રેમવર્ક છે. તેનો મુખ્ય વિચાર એ છે કે: મોડેલને વેક્ટર સ્પેસમાં આશરે મેચ કરવા દેવાને બદલે, મોડેલને દસ્તાવેજના માળખાગત પ્રતિનિધિત્વ પર અનુમાન કરવા દો - "ક્યાં જોવું" તે નક્કી કરો, ફક્ત "શું સમાન લાગે છે" તે નહીં.

પેજઇન્ડેક્સ લાંબા દસ્તાવેજો વાંચવાની માનવ નિષ્ણાતોની રીતનું અનુકરણ કરે છે: પ્રથમ અનુક્રમણિકા બ્રાઉઝ કરો, પ્રશ્નના આધારે સંબંધિત પ્રકરણો નક્કી કરો અને લક્ષ્ય સામગ્રી શોધવા માટે સ્તર દ્વારા સ્તર સુધી ઊંડા જાઓ. આ પ્રક્રિયા બે પગલાં દ્વારા પ્રાપ્ત થાય છે:

  • ટ્રી સ્ટ્રક્ચર ઇન્ડેક્સ બનાવો: PDF/Markdown દસ્તાવેજોને હાયરાર્કિકલ JSON ટ્રીમાં રૂપાંતરિત કરો, જે "LLM માટે ઑપ્ટિમાઇઝ કરેલ અનુક્રમણિકા" જેવું જ છે.
  • અનુમાનિત ટ્રી શોધ: LLM પ્રશ્નના આધારે ટ્રી પર અનુમાનિત નેવિગેશન કરે છે, સંબંધિત નોડ્સને સ્થાન આપે છે, સામગ્રી કાઢે છે અને જવાબો જનરેટ કરે છે.

3. મુખ્ય મોડ્યુલોનું વિઘટન

3.1 PDF પ્રોસેસિંગ પાઇપલાઇન

પેજઇન્ડેક્સની PDF પ્રોસેસિંગ પાઇપલાઇન tree_parser() ફંક્શન દ્વારા ગોઠવવામાં આવે છે. મુખ્ય પ્રક્રિયામાં અનુક્રમણિકા શોધ (ત્રણ મોડ શાખાઓ), પ્રસ્તાવના પૂરક, ફ્લેટ સૂચિને હાયરાર્કિકલ ટ્રીમાં રૂપાંતરિત કરવી, મોટા નોડ્સનું રિકર્સિવ સબડિવિઝન, નોડ્સને સમૃદ્ધ બનાવવું અને JSON ટ્રી સ્ટ્રક્ચર આઉટપુટનો સમાવેશ થાય છે.

ત્રણ પ્રોસેસિંગ મોડ્સ:

  • process_toc_with_page_numbers (અનુક્રમણિકા + પાના નંબર): LLM નો ઉપયોગ કરીને મૂળ અનુક્રમણિકાને માળખાગત JSON માં રૂપાંતરિત કરો અને તાર્કિક પાના નંબરોને ભૌતિક પાના નંબરો પર મેપ કરો.
  • process_no_toc (અનુક્રમણિકા વગર): LLM દ્વારા મુખ્ય ટેક્સ્ટ સામગ્રીમાંથી સીધા જ હાયરાર્કિકલ સ્ટ્રક્ચરનો અંદાજ લગાવો.
  • process_toc_no_page_numbers (અનુક્રમણિકા પરંતુ પાના નંબર વગર): સ્ટ્રક્ચર કાઢો અને પછી ભૌતિક પાના નંબરોને પૂરક બનાવવા માટે અનુમાન કરો.

3.2 ટ્રી સ્ટ્રક્ચર ડેટા મોડેલ

ટ્રીમાં દરેક નોડમાં આ ક્ષેત્રો શામેલ છે: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (ચાઇલ્ડ નોડ એરે), વગેરે.

3.3 અનુમાનિત પુનઃપ્રાપ્તિ મિકેનિઝમ

પુનઃપ્રાપ્તિ તબક્કો કોઈપણ વેક્ટર ગણતરી પર આધાર રાખતો નથી. LLM વપરાશકર્તાના પ્રશ્નો અને દસ્તાવેજ ટ્રી સ્ટ્રક્ચર મેળવે છે, નોડ શીર્ષકો અને સારાંશના આધારે અનુમાન કરે છે અને તેની "વિચાર પ્રક્રિયા" અને સંબંધિત node_id ની સૂચિ આઉટપુટ કરે છે. સિસ્ટમ પછી node_id ના આધારે node_map માંથી અનુરૂપ નોડનો સંપૂર્ણ ટેક્સ્ટ કાઢે છે, તેને સંદર્ભ તરીકે જોડે છે અને LLM ને અંતિમ જવાબ જનરેટ કરવા માટે આપે છે.

4. મુખ્ય ડિઝાઇન હાઇલાઇટ્સ

  • વેક્ટર વગરનું આર્કિટેક્ચર: એમ્બેડિંગ મોડેલ અને વેક્ટર ડેટાબેઝની જરૂર નથી, માળખાકીય સુવિધા ખર્ચ ઘટાડે છે અને જમાવટને સરળ બનાવે છે.
  • દસ્તાવેજનું કુદરતી સ્ટ્રક્ચર જાળવી રાખે છે: દસ્તાવેજના સહજ પ્રકરણો/વિભાગો/ઉપ-પ્રકરણો દ્વારા સામગ્રીને ગોઠવો, ચંકમાં સંદર્ભના નુકસાનને ટાળો.
  • પુનઃપ્રાપ્તિની સમજાવટ: દરેક પુનઃપ્રાપ્તિ સંપૂર્ણ અનુમાન સાંકળ પરત કરે છે, જે ઉચ્ચ અનુપાલન આવશ્યકતાવાળા દૃશ્યોમાં સ્પષ્ટ લાભ ધરાવે છે.

5. મૂલ્યાંકન પરિણામો

Mafin 2.5 એ પેજઇન્ડેક્સ પર આધારિત નાણાકીય દસ્તાવેજ પ્રશ્ન અને જવાબ સિસ્ટમ છે. FinanceBench (ફાઇનાન્સિયલ ડોક્યુમેન્ટ QA બેન્ચમાર્ક ટેસ્ટ) પર તેનું પ્રદર્શન 98.7% ની ચોકસાઈ સુધી પહોંચે છે, જે Perplexity (45%) અને GPT-4o (31%) કરતાં ઘણું વધારે છે.

6. લાગુ દૃશ્યો

માટે યોગ્ય: સ્પષ્ટ હાયરાર્કિકલ સ્ટ્રક્ચરવાળા લાંબા દસ્તાવેજો (નાણાકીય અહેવાલો, નિયમો, પાઠ્યપુસ્તકો, માર્ગદર્શિકાઓ), લંબાઈમાં દસથી સેંકડો પાના

માટે યોગ્ય નથી: માળખાગત સામગ્રી વગરના દસ્તાવેજો, OCR વગરની સ્કેન કરેલી નકલો, કોષ્ટકો/ચાર્ટ્સ પર આધારિત દસ્તાવેજો, મિલિસેકન્ડ-સ્તરના રીઅલ-ટાઇમ પ્રતિસાદની જરૂર હોય તેવા દૃશ્યો

7. સારાંશ

પેજઇન્ડેક્સનું મુખ્ય યોગદાન એ વેક્ટર વગરના RAG દાખલાનો વ્યવહારુ અભિગમ રજૂ કરવાનો છે: દસ્તાવેજના કુદરતી સ્ટ્રક્ચરનો ઉપયોગ કરીને ટ્રી ઇન્ડેક્સ બનાવો અને વેક્ટર સમાનતા શોધને બદલે LLM અનુમાનનો ઉપયોગ કરો. આ સોલ્યુશન સ્પષ્ટ હાયરાર્કિકલ સ્ટ્રક્ચરવાળા વ્યાવસાયિક લાંબા દસ્તાવેજ દૃશ્યોમાં ઉત્કૃષ્ટ પ્રદર્શન કરે છે, અને સમજાવટ અને ઓડિટ ક્ષમતા પણ પરંપરાગત સોલ્યુશન્સ કરતાં નોંધપાત્ર રીતે વધુ સારી છે.

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy સુધારણા માર્ગદર્શિકા: કેવી રીતે મેળવો ચમકદાર દંતકથા સ્તરની પેટે

Claude Code Buddy સુધારણા માર્ગદર્શિકા: કેવી રીતે મેળવો ચમકદાર દંતકથા સ્તરની પેટે 2026年4月1日,Anthropic 在 Claude Code 2.1....

Obsidian એ Defuddle રજૂ કર્યું, Obsidian Web Clipper ને નવા ઊંચાઈ પર લઈ ગયુંTechnology

Obsidian એ Defuddle રજૂ કર્યું, Obsidian Web Clipper ને નવા ઊંચાઈ પર લઈ ગયું

Obsidian એ Defuddle રજૂ કર્યું, Obsidian Web Clipper ને નવા ઊંચાઈ પર લઈ ગયું હું હંમેશા Obsidian ના મુખ્ય વિચારોને પસંદ...

OpenAI અચાનક "ત્રણ-માં-એક" જાહેર કરે છે: બ્રાઉઝર + પ્રોગ્રામિંગ + ChatGPT મર્જ, આંતરિક રીતે માન્યતા આપે છે કે ગયા વર્ષમાં ખોટી દિશામાં ગયા હતાTechnology

OpenAI અચાનક "ત્રણ-માં-એક" જાહેર કરે છે: બ્રાઉઝર + પ્રોગ્રામિંગ + ChatGPT મર્જ, આંતરિક રીતે માન્યતા આપે છે કે ગયા વર્ષમાં ખોટી દિશામાં ગયા હતા

OpenAI અચાનક "ત્રણ-માં-એક" જાહેર કરે છે: બ્રાઉઝર + પ્રોગ્રામિંગ + ChatGPT મર્જ, આંતરિક રીતે માન્યતા આપે છે કે ગયા વર્ષમા...

2026, હવે પોતાને "આપણી" કરવા માટે દબાણ ન કરો! આ 8 નાનકડી બાબતો કરો, સ્વાસ્થ્ય સ્વાભાવિક રીતે આવશેHealth

2026, હવે પોતાને "આપણી" કરવા માટે દબાણ ન કરો! આ 8 નાનકડી બાબતો કરો, સ્વાસ્થ્ય સ્વાભાવિક રીતે આવશે

2026, હવે પોતાને "આપણી" કરવા માટે દબાણ ન કરો! આ 8 નાનકડી બાબતો કરો, સ્વાસ્થ્ય સ્વાભાવિક રીતે આવશે નવી વર્ષ શરૂ થાય છે, ...

努力 વજન ઘટાડવા છતાં વજન ઘટાડવા ન શકતા માતાઓ, ચોક્કસપણે અહીં જ પડી ગયા છેHealth

努力 વજન ઘટાડવા છતાં વજન ઘટાડવા ન શકતા માતાઓ, ચોક્કસપણે અહીં જ પડી ગયા છે

#努力 વજન ઘટાડવા છતાં વજન ઘટાડવા ન શકતા માતાઓ, ચોક્કસપણે અહીં જ પડી ગયા છે માર્ચનો મધ્ય ભાગ પસાર થઈ ગયો છે, તમારું વજન ઘટ...

📝
Technology

AI Browser 24 કલાક સ્થિર કાર્યરત માર્ગદર્શિકા

AI Browser 24 કલાક સ્થિર કાર્યરત માર્ગદર્શિકા આ ટ્યુટોરિયલમાં સ્થિર, લાંબા ગાળાના AI બ્રાઉઝર પર્યાવરણ કેવી રીતે બનાવવું ...