PageIndex کی گہرائی سے تجزیہ: بغیر ویکٹر کے استدلالی RAG، AI کو انسانی ماہر کی طرح دستاویزات پڑھنے کی صلاحیت دیتا ہے
PageIndex ایک بغیر ویکٹر کے، استدلالی RAG فریم ورک ہے جسے Vectify AI ٹیم نے اوپن سورس کیا ہے (GitHub 14.8k+ stars)۔ یہ طویل دستاویزات کو درجہ بندی والے ٹری انڈیکس میں تبدیل کرتا ہے، LLM کو درخت پر استدلالی بازیافت کرنے کے لیے استعمال کرتا ہے، اور FinanceBench مالیاتی دستاویز سوال و جواب کے معیار پر 98.7% درستگی حاصل کرتا ہے۔

1. پس منظر: روایتی RAG کے پانچ دردناک نکات
RAG بڑے ماڈل ایپلی کیشنز کے لیے ایک ڈی فیکٹو معیار بن چکا ہے۔ مرکزی دھارے کے حل پری پروسیسنگ مرحلے میں دستاویزات کو مقررہ لمبائی کے chunks میں تقسیم کرتے ہیں، انہیں embedding ماڈل کے ذریعے ویکٹر میں تبدیل کرتے ہیں، اور ویکٹر ڈیٹا بیس میں محفوظ کرتے ہیں۔ استفسار کرتے وقت، یہ صارف کے سوال کی اسی طرح embedding کرتا ہے، اور پھر ویکٹر مماثلت کی تلاش کے ذریعے Top-K نتائج کو واپس بلاتا ہے، اور انہیں LLM کے ان پٹ سیاق و سباق کے طور پر جوڑتا ہے۔
یہ عمل مختصر متن اور عام منظرناموں میں مؤثر ہے، لیکن پیشہ ورانہ طویل دستاویزات (مالیاتی رپورٹس، قوانین اور ضوابط، تکنیکی دستورالعمل وغیرہ) کے منظرناموں میں، یہ پانچ بنیادی مسائل کو ظاہر کرتا ہے:
1) مماثلت ≠ مطابقت۔ ویکٹر بازیافت فرض کرتی ہے کہ "معنوی طور پر سب سے زیادہ ملتے جلتے ٹیکسٹ بلاک = سب سے زیادہ متعلقہ جواب کا ماخذ"، لیکن پیشہ ورانہ دستاویزات میں، بہت سے پیراگراف تقریباً یکساں معنی رکھتے ہیں لیکن اہم تفصیلات میں بہت مختلف ہوتے ہیں۔
2) سخت تقسیم سیاق و سباق کی سالمیت کو تباہ کر دیتی ہے۔ 512 یا 1024 ٹوکن کی مقررہ ونڈو کے ذریعے دستاویزات کو تقسیم کرنے سے جملے، پیراگراف اور یہاں تک کہ پورے منطقی حصے منقطع ہو جاتے ہیں، جس کی وجہ سے اہم سیاق و سباق ضائع ہو جاتا ہے۔
3) استفسار کے ارادے اور علم کی جگہ میں غلط ترتیب۔ صارف کے استفسار "ارادے" کا اظہار کرتے ہیں نہ کہ "مواد" کا، query embedding اور document embedding مختلف معنوی جگہوں میں ہوتے ہیں۔
4) دستاویز میں حوالہ جات کو سنبھالنے میں ناکامی۔ پیشہ ورانہ دستاویزات میں عام طور پر "تفصیلات کے لیے ضمیمہ G دیکھیں"، "ٹیبل 5.3 سے رجوع کریں" جیسے حوالہ جات ہوتے ہیں، ان حوالہ جات اور حوالہ کردہ مواد کے درمیان کوئی معنوی مماثلت نہیں ہوتی ہے، اور ویکٹر بازیافت ان کا مقابلہ نہیں کر سکتی ہے۔
5) آزاد استفسار، بات چیت کی تاریخ کو استعمال کرنے میں ناکامی۔ ہر بازیافت استفسار کو ایک آزاد درخواست کے طور پر دیکھتی ہے، اور پچھلی بات چیت کے سیاق و سباق کے ساتھ مل کر بتدریج بازیافت نہیں کر سکتی ہے۔
2. PageIndex کا مجموعی فن تعمیر
PageIndex ایک بغیر ویکٹر (Vectorless)، استدلال پر مبنی (Reasoning-based) RAG فریم ورک ہے۔ اس کا بنیادی خیال یہ ہے کہ: ماڈل کو ویکٹر کی جگہ میں تخمینی مماثلت کرنے دینے کے بجائے، ماڈل کو دستاویز کی ساختی نمائندگی پر استدلال کرنے دیا جائے - یہ فیصلہ کرنا کہ "کہاں دیکھنا ہے"، نہ کہ صرف "کیا ملتا جلتا نظر آتا ہے"۔
PageIndex ایک انسانی ماہر کے طویل دستاویزات پڑھنے کے طریقے کی نقل کرتا ہے: پہلے فہرست کو براؤز کریں، سوال کی بنیاد پر متعلقہ ابواب کا تعین کریں، اور ہدف مواد تلاش کرنے تک پرت بہ پرت گہرائی میں جائیں۔ یہ عمل دو مراحل کے ذریعے حاصل کیا جاتا ہے:
- درخت کی ساخت کا انڈیکس بنائیں: PDF/Markdown دستاویزات کو درجہ بندی والے JSON درخت میں تبدیل کریں، جو "LLM کے لیے بہتر کردہ فہرست" کی طرح ہے۔
- استدلالی درخت کی تلاش: LLM سوال کی بنیاد پر درخت پر استدلال نیویگیشن کرتا ہے، متعلقہ نوڈس کو تلاش کرتا ہے، مواد نکالتا ہے اور جوابات تیار کرتا ہے۔

3. بنیادی ماڈیولز کی تحلیل
3.1 PDF پروسیسنگ پائپ لائن
PageIndex کی PDF پروسیسنگ پائپ لائن tree_parser() فنکشن کے ذریعے ترتیب دی گئی ہے، اور بنیادی عمل میں شامل ہیں: فہرست کا پتہ لگانا (تین موڈ برانچز)، پیش لفظ کی تکمیل، فلیٹ لسٹ کو درجہ بندی والے درخت میں تبدیل کرنا، بڑے نوڈس کی تکراری ذیلی تقسیم، نوڈس کو افزودہ کرنا، اور JSON درخت کی ساخت کا آؤٹ پٹ۔
تین پروسیسنگ موڈز:
- process_toc_with_page_numbers (فہرست + صفحہ نمبر): LLM کا استعمال کرتے ہوئے اصل فہرست کو ساختی JSON میں تبدیل کریں، اور منطقی صفحہ نمبروں کو فزیکل صفحہ نمبروں پر میپ کریں۔
- process_no_toc (کوئی فہرست نہیں): LLM براہ راست متن کے مواد سے درجہ بندی کی ساخت کا اندازہ لگاتا ہے۔
- process_toc_no_page_numbers (فہرست لیکن کوئی صفحہ نمبر نہیں): ساخت کو نکالیں اور پھر فزیکل صفحہ نمبروں کو مکمل کرنے کا اندازہ لگائیں۔
3.2 درخت کی ساخت کا ڈیٹا ماڈل
درخت میں ہر نوڈ میں شامل ہیں: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (ذیلی نوڈس کی صف) جیسے فیلڈز۔
3.3 استدلالی بازیافت کا طریقہ کار
بازیافت کا مرحلہ کسی بھی ویکٹر حساب پر انحصار نہیں کرتا ہے۔ LLM صارف کے سوال اور دستاویز کے درخت کی ساخت کو وصول کرتا ہے، نوڈ کے عنوانات اور خلاصوں کی بنیاد پر استدلال کرتا ہے، اور اس کے "سوچنے کے عمل" اور متعلقہ node_id کی فہرست کو آؤٹ پٹ کرتا ہے۔ پھر سسٹم node_id کی بنیاد پر node_map سے متعلقہ نوڈ کے مکمل متن کو نکالتا ہے، اور اسے سیاق و سباق کے طور پر جوڑ کر LLM کو حتمی جواب تیار کرنے کے لیے دیتا ہے۔

4. بنیادی ڈیزائن کی جھلکیاں
- بغیر ویکٹر کا فن تعمیر: embedding ماڈل اور ویکٹر ڈیٹا بیس کی ضرورت نہیں، بنیادی ڈھانچے کی لاگت کو کم کرتا ہے اور تعیناتی کو آسان بناتا ہے۔
- دستاویز کی قدرتی ساخت کو برقرار رکھیں: دستاویز کے موروثی ابواب/ذیلی ابواب/ذیلی ابواب کے مطابق مواد کو منظم کریں، chunk کے درمیان سیاق و سباق کے نقصان سے بچیں۔
- بازیافت کی تشریح پذیری: ہر بازیافت مکمل استدلال زنجیر کو واپس کرتی ہے، جو تعمیل کے تقاضوں والے منظرناموں میں واضح فوائد رکھتی ہے۔
5. تشخیصی نتائج
Mafin 2.5 PageIndex پر مبنی ایک مالیاتی دستاویز سوال و جواب کا نظام ہے۔ FinanceBench (مالیاتی دستاویز QA بینچ مارک ٹیسٹ) پر اس کی کارکردگی 98.7% درستگی تک پہنچ گئی، جو Perplexity (45%) اور GPT-4o (31%) سے کہیں زیادہ ہے۔

6. قابل اطلاق منظرنامے
موزوں: واضح درجہ بندی کی ساخت والی طویل دستاویزات (مالیاتی رپورٹس، قوانین، نصابی کتب، دستورالعمل)، جو دسیوں سے لے کر سینکڑوں صفحات پر مشتمل ہوں۔
غیر موزوں: غیر ساختی مواد والی دستاویزات، بغیر OCR کے اسکین شدہ دستاویزات، ٹیبل/چارٹ پر مبنی دستاویزات، ایسے منظرنامے جن میں ملی سیکنڈ کی سطح پر ریئل ٹائم رسپانس کی ضرورت ہو۔
7. خلاصہ
PageIndex کی بنیادی شراکت ایک عملی بغیر ویکٹر کے RAG پیراڈائم کی تجویز ہے: دستاویز کی قدرتی ساخت کا استعمال کرتے ہوئے درخت کا انڈیکس بنائیں، اور LLM استدلال کو ویکٹر مماثلت کی تلاش کے متبادل کے طور پر استعمال کریں۔ یہ حل واضح درجہ بندی کی ساخت والے پیشہ ورانہ طویل دستاویزات کے منظرناموں میں بہترین کارکردگی کا مظاہرہ کرتا ہے، اور اس کی تشریح پذیری اور آڈٹ پذیری بھی روایتی حلوں سے نمایاں طور پر بہتر ہے۔





