પેજઇન્ડેક્સનું ઊંડાણપૂર્વક વિશ્લેષણ: વેક્ટર વગરનું અનુમાન આધારિત RAG, AI ને માનવ નિષ્ણાતની જેમ દસ્તાવેજો વાંચવા દે છે

પેજઇન્ડેક્સ એ વેક્ટિફાય AI ટીમ દ્વારા ઓપન સોર્સ કરાયેલ વેક્ટર વગરનું, અનુમાન આધારિત RAG ફ્રેમવર્ક છે (GitHub 14.8k+ સ્ટાર્સ). તે લાંબા દસ્તાવેજોને હાયરાર્કિકલ ટ્રી ઇન્ડેક્સમાં રૂપાંતરિત કરે છે, ટ્રી પર અનુમાનિત પુનઃપ્રાપ્તિ માટે LLM નો ઉપયોગ કરે છે, અને FinanceBench ફાઇનાન્સિયલ ડોક્યુમેન્ટ પ્રશ્ન અને જવાબના બેન્ચમાર્ક પર 98.7% ચોકસાઈ હાંસલ કરે છે.

1. પૃષ્ઠભૂમિ: પરંપરાગત RAG ના પાંચ પીડા બિંદુઓ

RAG એ મોટા મોડેલ એપ્લિકેશન્સ માટે વાસ્તવિક ધોરણ બની ગયું છે. મુખ્ય પ્રવાહના ઉકેલો પ્રી-પ્રોસેસિંગ તબક્કામાં દસ્તાવેજોને નિશ્ચિત લંબાઈના ચંકમાં વિભાજિત કરે છે, એમ્બેડિંગ મોડેલ દ્વારા વેક્ટરમાં રૂપાંતરિત કરે છે અને વેક્ટર ડેટાબેઝમાં સંગ્રહિત કરે છે; ક્વેરી કરતી વખતે, તે વપરાશકર્તાના પ્રશ્નોનું સમાન એમ્બેડિંગ કરે છે, અને પછી વેક્ટર સમાનતા શોધ દ્વારા ટોપ-કે પરિણામોને પાછા બોલાવે છે અને LLM ના ઇનપુટ સંદર્ભ તરીકે જોડે છે.

આ પ્રક્રિયા ટૂંકા ટેક્સ્ટ અને સામાન્ય દૃશ્યોમાં અસરકારક છે, પરંતુ વ્યાવસાયિક લાંબા દસ્તાવેજો (નાણાકીય અહેવાલો, કાયદા અને નિયમો, તકનીકી માર્ગદર્શિકાઓ, વગેરે) ના કિસ્સામાં, તે પાંચ મૂળભૂત સમસ્યાઓ દર્શાવે છે:

1) સમાનતા ≠ સુસંગતતા. વેક્ટર પુનઃપ્રાપ્તિ ધારે છે કે "સિમેન્ટિકલી સૌથી સમાન ટેક્સ્ટ બ્લોક = સૌથી સુસંગત જવાબ સ્ત્રોત", પરંતુ વ્યાવસાયિક દસ્તાવેજોમાં, મોટી સંખ્યામાં ફકરાઓ લગભગ સમાન સિમેન્ટિક્સ શેર કરે છે પરંતુ મહત્વપૂર્ણ વિગતોમાં મોટા તફાવતો ધરાવે છે.

2) હાર્ડ ચંકિંગ સંદર્ભની અખંડિતતાને નષ્ટ કરે છે. 512 અથવા 1024 ટોકન્સની નિશ્ચિત વિન્ડો દ્વારા દસ્તાવેજોને વિભાજિત કરવાથી વાક્યો, ફકરાઓ અને સમગ્ર તાર્કિક વિભાગો કપાઈ જાય છે, જેના કારણે મહત્વપૂર્ણ સંદર્ભ ખોવાઈ જાય છે.

3) ક્વેરી હેતુ અને જ્ઞાન અવકાશ ખોટી રીતે ગોઠવાયેલા છે. વપરાશકર્તાની ક્વેરી "હેતુ" વ્યક્ત કરે છે, "સામગ્રી" નહીં, અને ક્વેરી એમ્બેડિંગ અને ડોક્યુમેન્ટ એમ્બેડિંગ અલગ સિમેન્ટિક સ્પેસમાં છે.

4) દસ્તાવેજમાંના સંદર્ભોને હેન્ડલ કરવામાં અસમર્થતા. વ્યાવસાયિક દસ્તાવેજોમાં સામાન્ય રીતે "પરિશિષ્ટ G જુઓ", "કોષ્ટક 5.3 નો સંદર્ભ લો" વગેરે જેવા સંદર્ભો હોય છે. આ સંદર્ભો અને સંદર્ભિત સામગ્રી વચ્ચે કોઈ સિમેન્ટિક સમાનતા હોતી નથી, અને વેક્ટર પુનઃપ્રાપ્તિ મેચ કરી શકતી નથી.

5) સ્વતંત્ર ક્વેરી, વાતચીતના ઇતિહાસનો ઉપયોગ કરવામાં અસમર્થતા. દરેક પુનઃપ્રાપ્તિ ક્વેરીને સ્વતંત્ર વિનંતી તરીકે ગણે છે અને અગાઉની વાતચીતના સંદર્ભ સાથે ક્રમિક પુનઃપ્રાપ્તિને જોડી શકતી નથી.

2. પેજઇન્ડેક્સનું એકંદર આર્કિટેક્ચર

પેજઇન્ડેક્સ એ વેક્ટર વગરનું (Vectorless), અનુમાન આધારિત (Reasoning-based) RAG ફ્રેમવર્ક છે. તેનો મુખ્ય વિચાર એ છે કે: મોડેલને વેક્ટર સ્પેસમાં આશરે મેચ કરવા દેવાને બદલે, મોડેલને દસ્તાવેજના માળખાગત પ્રતિનિધિત્વ પર અનુમાન કરવા દો - "ક્યાં જોવું" તે નક્કી કરો, ફક્ત "શું સમાન લાગે છે" તે નહીં.

પેજઇન્ડેક્સ લાંબા દસ્તાવેજો વાંચવાની માનવ નિષ્ણાતોની રીતનું અનુકરણ કરે છે: પ્રથમ અનુક્રમણિકા બ્રાઉઝ કરો, પ્રશ્નના આધારે સંબંધિત પ્રકરણો નક્કી કરો અને લક્ષ્ય સામગ્રી શોધવા માટે સ્તર દ્વારા સ્તર સુધી ઊંડા જાઓ. આ પ્રક્રિયા બે પગલાં દ્વારા પ્રાપ્ત થાય છે:

ટ્રી સ્ટ્રક્ચર ઇન્ડેક્સ બનાવો: PDF/Markdown દસ્તાવેજોને હાયરાર્કિકલ JSON ટ્રીમાં રૂપાંતરિત કરો, જે "LLM માટે ઑપ્ટિમાઇઝ કરેલ અનુક્રમણિકા" જેવું જ છે.
અનુમાનિત ટ્રી શોધ: LLM પ્રશ્નના આધારે ટ્રી પર અનુમાનિત નેવિગેશન કરે છે, સંબંધિત નોડ્સને સ્થાન આપે છે, સામગ્રી કાઢે છે અને જવાબો જનરેટ કરે છે.

3. મુખ્ય મોડ્યુલોનું વિઘટન

3.1 PDF પ્રોસેસિંગ પાઇપલાઇન

પેજઇન્ડેક્સની PDF પ્રોસેસિંગ પાઇપલાઇન tree_parser() ફંક્શન દ્વારા ગોઠવવામાં આવે છે. મુખ્ય પ્રક્રિયામાં અનુક્રમણિકા શોધ (ત્રણ મોડ શાખાઓ), પ્રસ્તાવના પૂરક, ફ્લેટ સૂચિને હાયરાર્કિકલ ટ્રીમાં રૂપાંતરિત કરવી, મોટા નોડ્સનું રિકર્સિવ સબડિવિઝન, નોડ્સને સમૃદ્ધ બનાવવું અને JSON ટ્રી સ્ટ્રક્ચર આઉટપુટનો સમાવેશ થાય છે.

ત્રણ પ્રોસેસિંગ મોડ્સ:

process_toc_with_page_numbers (અનુક્રમણિકા + પાના નંબર): LLM નો ઉપયોગ કરીને મૂળ અનુક્રમણિકાને માળખાગત JSON માં રૂપાંતરિત કરો અને તાર્કિક પાના નંબરોને ભૌતિક પાના નંબરો પર મેપ કરો.
process_no_toc (અનુક્રમણિકા વગર): LLM દ્વારા મુખ્ય ટેક્સ્ટ સામગ્રીમાંથી સીધા જ હાયરાર્કિકલ સ્ટ્રક્ચરનો અંદાજ લગાવો.
process_toc_no_page_numbers (અનુક્રમણિકા પરંતુ પાના નંબર વગર): સ્ટ્રક્ચર કાઢો અને પછી ભૌતિક પાના નંબરોને પૂરક બનાવવા માટે અનુમાન કરો.

3.2 ટ્રી સ્ટ્રક્ચર ડેટા મોડેલ

ટ્રીમાં દરેક નોડમાં આ ક્ષેત્રો શામેલ છે: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (ચાઇલ્ડ નોડ એરે), વગેરે.

3.3 અનુમાનિત પુનઃપ્રાપ્તિ મિકેનિઝમ

પુનઃપ્રાપ્તિ તબક્કો કોઈપણ વેક્ટર ગણતરી પર આધાર રાખતો નથી. LLM વપરાશકર્તાના પ્રશ્નો અને દસ્તાવેજ ટ્રી સ્ટ્રક્ચર મેળવે છે, નોડ શીર્ષકો અને સારાંશના આધારે અનુમાન કરે છે અને તેની "વિચાર પ્રક્રિયા" અને સંબંધિત node_id ની સૂચિ આઉટપુટ કરે છે. સિસ્ટમ પછી node_id ના આધારે node_map માંથી અનુરૂપ નોડનો સંપૂર્ણ ટેક્સ્ટ કાઢે છે, તેને સંદર્ભ તરીકે જોડે છે અને LLM ને અંતિમ જવાબ જનરેટ કરવા માટે આપે છે.

4. મુખ્ય ડિઝાઇન હાઇલાઇટ્સ

વેક્ટર વગરનું આર્કિટેક્ચર: એમ્બેડિંગ મોડેલ અને વેક્ટર ડેટાબેઝની જરૂર નથી, માળખાકીય સુવિધા ખર્ચ ઘટાડે છે અને જમાવટને સરળ બનાવે છે.
દસ્તાવેજનું કુદરતી સ્ટ્રક્ચર જાળવી રાખે છે: દસ્તાવેજના સહજ પ્રકરણો/વિભાગો/ઉપ-પ્રકરણો દ્વારા સામગ્રીને ગોઠવો, ચંકમાં સંદર્ભના નુકસાનને ટાળો.
પુનઃપ્રાપ્તિની સમજાવટ: દરેક પુનઃપ્રાપ્તિ સંપૂર્ણ અનુમાન સાંકળ પરત કરે છે, જે ઉચ્ચ અનુપાલન આવશ્યકતાવાળા દૃશ્યોમાં સ્પષ્ટ લાભ ધરાવે છે.

5. મૂલ્યાંકન પરિણામો

Mafin 2.5 એ પેજઇન્ડેક્સ પર આધારિત નાણાકીય દસ્તાવેજ પ્રશ્ન અને જવાબ સિસ્ટમ છે. FinanceBench (ફાઇનાન્સિયલ ડોક્યુમેન્ટ QA બેન્ચમાર્ક ટેસ્ટ) પર તેનું પ્રદર્શન 98.7% ની ચોકસાઈ સુધી પહોંચે છે, જે Perplexity (45%) અને GPT-4o (31%) કરતાં ઘણું વધારે છે.

6. લાગુ દૃશ્યો

માટે યોગ્ય: સ્પષ્ટ હાયરાર્કિકલ સ્ટ્રક્ચરવાળા લાંબા દસ્તાવેજો (નાણાકીય અહેવાલો, નિયમો, પાઠ્યપુસ્તકો, માર્ગદર્શિકાઓ), લંબાઈમાં દસથી સેંકડો પાના

માટે યોગ્ય નથી: માળખાગત સામગ્રી વગરના દસ્તાવેજો, OCR વગરની સ્કેન કરેલી નકલો, કોષ્ટકો/ચાર્ટ્સ પર આધારિત દસ્તાવેજો, મિલિસેકન્ડ-સ્તરના રીઅલ-ટાઇમ પ્રતિસાદની જરૂર હોય તેવા દૃશ્યો

7. સારાંશ

પેજઇન્ડેક્સનું મુખ્ય યોગદાન એ વેક્ટર વગરના RAG દાખલાનો વ્યવહારુ અભિગમ રજૂ કરવાનો છે: દસ્તાવેજના કુદરતી સ્ટ્રક્ચરનો ઉપયોગ કરીને ટ્રી ઇન્ડેક્સ બનાવો અને વેક્ટર સમાનતા શોધને બદલે LLM અનુમાનનો ઉપયોગ કરો. આ સોલ્યુશન સ્પષ્ટ હાયરાર્કિકલ સ્ટ્રક્ચરવાળા વ્યાવસાયિક લાંબા દસ્તાવેજ દૃશ્યોમાં ઉત્કૃષ્ટ પ્રદર્શન કરે છે, અને સમજાવટ અને ઓડિટ ક્ષમતા પણ પરંપરાગત સોલ્યુશન્સ કરતાં નોંધપાત્ર રીતે વધુ સારી છે.