PageIndex تحليل معمق: RAG استنتاجي بدون متجهات، يجعل الذكاء الاصطناعي يقرأ المستندات مثل الخبراء البشريين

PageIndex هو إطار عمل RAG استنتاجي بدون متجهات مفتوح المصدر من قبل فريق Vectify AI (GitHub 14.8k+ stars). يقوم بتحويل المستندات الطويلة إلى فهرس شجرة هرمي، ويستخدم LLM للاسترجاع الاستنتاجي على الشجرة، ويحقق دقة 98.7٪ على معيار أسئلة وأجوبة المستندات المالية FinanceBench.

1. الخلفية: خمس نقاط ضعف في RAG التقليدي

أصبح RAG معيارًا واقعيًا لتطبيقات النماذج الكبيرة. تقوم الحلول السائدة في مرحلة المعالجة المسبقة بتقسيم المستندات إلى أجزاء ثابتة الطول، وتحويلها إلى متجهات من خلال نموذج embedding، وتخزينها في قاعدة بيانات متجهات؛ وعند الاستعلام، يتم إجراء نفس عملية embedding لسؤال المستخدم، ثم يتم استرجاع أفضل النتائج Top-K من خلال البحث عن تشابه المتجهات، وضمها كسياق إدخال لـ LLM.

هذه العملية فعالة في النصوص القصيرة والسيناريوهات العامة، ولكن في سيناريوهات المستندات الطويلة المتخصصة (التقارير المالية، والقوانين واللوائح، والكتيبات الفنية، وما إلى ذلك)، فإنها تكشف عن خمس مشاكل أساسية:

1) التشابه ≠ الصلة. يفترض استرجاع المتجهات أن "كتلة النص الأكثر تشابهًا دلاليًا = المصدر الأكثر صلة بالإجابة"، ولكن في المستندات المتخصصة، تشترك العديد من الفقرات في دلالات متقاربة ولكنها تختلف اختلافًا كبيرًا في التفاصيل الرئيسية.

2) التقسيم الصلب يدمر تكامل السياق. يؤدي تقسيم المستندات وفقًا لنافذة ثابتة تبلغ 512 أو 1024 رمزًا مميزًا إلى قطع الجمل والفقرات وحتى المقاطع المنطقية بأكملها، مما يؤدي إلى فقدان السياق الرئيسي.

3) عدم تطابق نية الاستعلام مع مساحة المعرفة. يعبر استعلام المستخدم عن "نية" وليس "محتوى"، ويقع query embedding و document embedding في مساحات دلالية مختلفة.

4) عدم القدرة على التعامل مع الإشارات المرجعية داخل المستند. من الشائع في المستندات المتخصصة وجود إشارات مرجعية مثل "انظر الملحق G" أو "راجع الجدول 5.3"، ولا يوجد تشابه دلالي بين هذه الإشارات والمحتوى المشار إليه، ولا يمكن لميزة استرجاع المتجهات مطابقتها.

5) استعلام مستقل، غير قادر على الاستفادة من سجل المحادثة. يعتبر كل استرجاع الاستعلام طلبًا مستقلاً، وغير قادر على الجمع بين سياق المحادثة السابق لإجراء استرجاع تدريجي.

2. البنية العامة لـ PageIndex

PageIndex هو إطار عمل RAG بدون متجهات (Vectorless) وقائم على الاستدلال (Reasoning-based). الفكرة الأساسية هي: بدلاً من جعل النموذج يقوم بمطابقة تقريبية في فضاء المتجهات، من الأفضل جعل النموذج يستدل على التمثيل المنظم للمستند - تحديد "إلى أين ننظر"، بدلاً من مجرد "ما يبدو متشابهًا".

يحاكي PageIndex الطريقة التي يقرأ بها الخبراء البشريون المستندات الطويلة: أولاً تصفح جدول المحتويات، ثم تحديد الفصول ذات الصلة بناءً على السؤال، والتعمق تدريجيًا حتى العثور على المحتوى المستهدف. يتم تحقيق هذه العملية من خلال خطوتين:

بناء فهرس هيكل الشجرة: تحويل مستند PDF/Markdown إلى شجرة JSON هرمية، على غرار "جدول محتويات مُحسَّن لـ LLM"
بحث شجرة استنتاجي: يقوم LLM بالتنقل الاستنتاجي على الشجرة بناءً على السؤال، وتحديد موقع العقد ذات الصلة، واستخراج المحتوى وإنشاء إجابة

3. تحليل الوحدات الأساسية

3.1 خط أنابيب معالجة PDF

يتم تنظيم خط أنابيب معالجة PDF الخاص بـ PageIndex بواسطة الدالة tree_parser()، ويتضمن التدفق الأساسي: اكتشاف جدول المحتويات (ثلاثة فروع للوضع)، وملء المقدمة، وتحويل القائمة المسطحة إلى شجرة هرمية، وتقسيم العقد الكبيرة بشكل متكرر، وإثراء العقد، وإخراج هيكل شجرة JSON.

ثلاثة أوضاع للمعالجة:

process_toc_with_page_numbers (مع جدول المحتويات + مع أرقام الصفحات): يستخدم LLM لتحويل جدول المحتويات الأصلي إلى JSON منظم، وتعيين أرقام الصفحات المنطقية إلى أرقام الصفحات الفعلية
process_no_toc (بدون جدول محتويات): يستنتج LLM الهيكل الهرمي مباشرةً من محتوى النص الأساسي
process_toc_no_page_numbers (مع جدول المحتويات ولكن بدون أرقام الصفحات): استخراج الهيكل ثم استنتاج أرقام الصفحات الفعلية التكميلية

3.2 نموذج بيانات هيكل الشجرة

تحتوي كل عقدة في الشجرة على حقول مثل: title، node_id، start_index، end_index، summary، prefix_summary، text، nodes (مصفوفة العقد الفرعية)، إلخ.

3.3 آلية الاسترجاع الاستنتاجي

لا تعتمد مرحلة الاسترجاع على أي حسابات متجهات. يتلقى LLM سؤال المستخدم وهيكل شجرة المستند، ويستند إلى عناوين العقد وملخصاتها للاستدلال، وإخراج "عملية التفكير" وقائمة node_id ذات الصلة. ثم يستخرج النظام النص الكامل للعقد المقابلة من node_map بناءً على node_id، ويضمها كسياق لتسليمها إلى LLM لإنشاء الإجابة النهائية.

4. أبرز مميزات التصميم

بنية بدون متجهات: لا حاجة إلى نموذج embedding وقاعدة بيانات متجهات، مما يقلل من تكاليف البنية التحتية ويبسط النشر
الاحتفاظ بالهيكل الطبيعي للمستند: تنظيم المحتوى وفقًا للفصول/الأقسام الفرعية/الفصول الفرعية المتأصلة في المستند، وتجنب فقدان السياق عبر chunk
قابلية تفسير الاسترجاع: يُرجع كل استرجاع سلسلة استدلال كاملة، مما يوفر ميزة واضحة في السيناريوهات ذات متطلبات الامتثال العالية

5. نتائج التقييم

Mafin 2.5 هو نظام أسئلة وأجوبة للمستندات المالية يعتمد على PageIndex. حقق أداءً بنسبة دقة 98.7٪ على FinanceBench (معيار اختبار QA للمستندات المالية)، وهو أعلى بكثير من Perplexity (45٪) و GPT-4o (31٪).

6. السيناريوهات القابلة للتطبيق

مناسب لـ: المستندات الطويلة ذات الهيكل الهرمي الواضح (التقارير المالية، واللوائح، والكتب المدرسية، والكتيبات)، والتي يتراوح طولها من عشرات إلى مئات الصفحات

غير مناسب لـ: المستندات ذات المحتوى غير المهيكل، والمسح الضوئي غير المعالج بتقنية OCR، والمستندات التي تعتمد بشكل أساسي على الجداول/الرسوم البيانية، والسيناريوهات التي تتطلب استجابة في الوقت الفعلي بالمللي ثانية

7. ملخص

تتمثل المساهمة الأساسية لـ PageIndex في اقتراح نموذج RAG عملي بدون متجهات: بناء فهرس شجرة باستخدام الهيكل الطبيعي للمستند، واستخدام استدلال LLM لاستبدال البحث عن تشابه المتجهات. يقدم هذا الحل أداءً ممتازًا في سيناريوهات المستندات الطويلة المتخصصة ذات الهيكل الهرمي الواضح، كما أن قابليته للتفسير والتدقيق أفضل بكثير من الحلول التقليدية.