PageIndex-ის სიღრმისეული ანალიზი: ვექტორების გარეშე დასკვნებზე დაფუძნებული RAG, რომელიც ხელოვნურ ინტელექტს დოკუმენტების ადამიანის ექსპერტის მსგავსად წაკითხვის საშუალებას აძლევს

PageIndex არის Vectify AI გუნდის მიერ გახსნილი ვექტორების გარეშე, დასკვნებზე დაფუძნებული RAG ჩარჩო (GitHub 14.8k+ ვარსკვლავი). ის გარდაქმნის გრძელ დოკუმენტებს იერარქიულ ხის ინდექსად, იყენებს LLM-ს ხეზე დასკვნითი ძიებისთვის და აღწევს 98.7% სიზუსტეს FinanceBench ფინანსური დოკუმენტების კითხვა-პასუხის ეტალონზე.

1. ფონი: ტრადიციული RAG-ის ხუთი პრობლემა

RAG გახდა დიდი მოდელის აპლიკაციების დე ფაქტო სტანდარტი. ძირითადი გადაწყვეტილებები წინასწარი დამუშავების ეტაპზე დოკუმენტს ყოფს ფიქსირებული სიგრძის ნაწილებად (chunk), გარდაქმნის მათ ვექტორებად embedding მოდელის საშუალებით და ინახავს ვექტორულ მონაცემთა ბაზაში; მოთხოვნისას მომხმარებლის კითხვაზე კეთდება იგივე embedding, შემდეგ ვექტორული მსგავსების ძიების საშუალებით ხდება Top-K შედეგების გამოძახება და LLM-ის შეყვანის კონტექსტში გაერთიანება.

ეს პროცესი ეფექტურია მოკლე ტექსტებისა და ზოგადი სცენარებისთვის, მაგრამ პროფესიონალური გრძელი დოკუმენტების (ფინანსური ანგარიშები, კანონები და რეგულაციები, ტექნიკური სახელმძღვანელოები და ა.შ.) სცენარებში, ის ავლენს ხუთ ფუნდამენტურ პრობლემას:

1) მსგავსება ≠ შესაბამისობა. ვექტორული ძიება ვარაუდობს, რომ „სემანტიკურად ყველაზე მსგავსი ტექსტური ბლოკი = ყველაზე შესაბამისი პასუხის წყარო“, მაგრამ პროფესიონალურ დოკუმენტებში, ბევრი აბზაცი იზიარებს მიახლოებით სემანტიკას, მაგრამ მნიშვნელოვნად განსხვავდება საკვანძო დეტალებში.

2) მყარი დაყოფა არღვევს კონტექსტის სისრულეს. დოკუმენტის 512 ან 1024 token-ის ფიქსირებული ფანჯრით დაყოფა წყვეტს წინადადებებს, აბზაცებს და მთლიან ლოგიკურ სეგმენტებსაც კი, რაც იწვევს საკვანძო კონტექსტის დაკარგვას.

3) შეკითხვის განზრახვისა და ცოდნის სივრცის შეუსაბამობა. მომხმარებლის შეკითხვა გამოხატავს „განზრახვას“ და არა „შინაარსს“, query embedding და document embedding იმყოფებიან სხვადასხვა სემანტიკურ სივრცეში.

4) დოკუმენტში ციტირების დამუშავების შეუძლებლობა. პროფესიონალურ დოკუმენტებში ხშირია ციტირებები, როგორიცაა „იხილეთ დანართი G“, „იხილეთ ცხრილი 5.3“ და ა.შ. ამ ციტირებებსა და ციტირებულ შინაარსს შორის არ არსებობს სემანტიკური მსგავსება და ვექტორული ძიება ვერ ახერხებს მათ დამთხვევას.

5) დამოუკიდებელი შეკითხვები, საუბრის ისტორიის გამოყენების შეუძლებლობა. ყოველი ძიება query-ს განიხილავს, როგორც დამოუკიდებელ მოთხოვნას და ვერ აერთიანებს წინა საუბრის კონტექსტს პროგრესული ძიებისთვის.

2. PageIndex-ის საერთო არქიტექტურა

PageIndex არის ვექტორების გარეშე (Vectorless), დასკვნებზე დაფუძნებული (Reasoning-based) RAG ჩარჩო. მისი ძირითადი იდეაა: მოდელს ვექტორულ სივრცეში მიახლოებითი დამთხვევის გაკეთების ნაცვლად, მივცეთ საშუალება დოკუმენტის სტრუქტურირებულ წარმოდგენაზე დაასკვნას - გადაწყვიტოს „სად გაიხედოს“ და არა მხოლოდ „რა გამოიყურება მსგავსად“.

PageIndex ახდენს ადამიანის ექსპერტის მიერ გრძელი დოკუმენტის წაკითხვის სიმულაციას: ჯერ ათვალიერებს სარჩევს, კითხვის მიხედვით განსაზღვრავს შესაბამის თავებს და ფენებად ჩადის მიზნობრივი შინაარსის პოვნამდე. ეს პროცესი ხორციელდება ორი ნაბიჯით:

ხის სტრუქტურის ინდექსის აგება: PDF/Markdown დოკუმენტის გარდაქმნა იერარქიულ JSON ხედ, რომელიც ჰგავს „LLM-ისთვის ოპტიმიზირებულ სარჩევს“
დასკვნითი ხის ძიება: LLM ასკვნის ხეზე კითხვის მიხედვით, რათა მოძებნოს შესაბამისი კვანძები, ამოიღოს შინაარსი და შექმნას პასუხი

3. ძირითადი მოდულების დაშლა

3.1 PDF-ის დამუშავების ნაკადი

PageIndex-ის PDF-ის დამუშავების ნაკადი ორგანიზებულია tree_parser() ფუნქციით, ძირითადი პროცესი მოიცავს: სარჩევის გამოვლენას (სამი რეჟიმის განშტოება), წინასიტყვაობის დამატებას, ბრტყელი სიის გარდაქმნას იერარქიულ ხედ, დიდი კვანძების რეკურსიულ დაყოფას, კვანძების გამდიდრებას, JSON ხის სტრუქტურის გამოტანას.

სამი დამუშავების რეჟიმი:

process_toc_with_page_numbers (სარჩევი + გვერდის ნომრები): LLM-ის გამოყენებით ორიგინალური სარჩევის გარდაქმნა სტრუქტურირებულ JSON-ად, ლოგიკური გვერდის ნომრების ფიზიკურ გვერდის ნომრებთან ასახვა
process_no_toc (სარჩევის გარეშე): LLM-ის მიერ იერარქიული სტრუქტურის პირდაპირ დასკვნა ძირითადი ტექსტის შინაარსიდან
process_toc_no_page_numbers (სარჩევი, მაგრამ გვერდის ნომრების გარეშე): სტრუქტურის ამოღება და შემდეგ ფიზიკური გვერდის ნომრების დამატებითი დასკვნა

3.2 ხის სტრუქტურის მონაცემთა მოდელი

ხის თითოეული კვანძი შეიცავს: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (შვილობილი კვანძების მასივი) და სხვა ველებს.

3.3 დასკვნითი ძიების მექანიზმი

ძიების ეტაპი არ ეყრდნობა რაიმე ვექტორულ გამოთვლას. LLM იღებს მომხმარებლის კითხვას და დოკუმენტის ხის სტრუქტურას, ასკვნის კვანძის სათაურებისა და რეზიუმეების საფუძველზე და გამოაქვს მისი „აზროვნების პროცესი“ და შესაბამისი node_id სიები. შემდეგ სისტემა node_id-ის მიხედვით node_map-დან ამოიღებს შესაბამისი კვანძის სრულ ტექსტს, აერთიანებს მას კონტექსტში და გადასცემს LLM-ს საბოლოო პასუხის შესაქმნელად.

4. ძირითადი დიზაინის უპირატესობები

ვექტორების გარეშე არქიტექტურა: არ საჭიროებს embedding მოდელს და ვექტორულ მონაცემთა ბაზას, ამცირებს ინფრასტრუქტურის ხარჯებს და ამარტივებს განლაგებას
დოკუმენტის ბუნებრივი სტრუქტურის შენარჩუნება: შინაარსის ორგანიზება დოკუმენტის თანდაყოლილი თავების/ქვეთავების/ქვეპუნქტების მიხედვით, თავიდან აიცილებს კონტექსტის დაკარგვას chunk-ებს შორის
ძიების ახსნადობა: ყოველი ძიება აბრუნებს სრულ დასკვნის ჯაჭვს, რაც მნიშვნელოვან უპირატესობას ანიჭებს მას შესაბამისობის მაღალი მოთხოვნების მქონე სცენარებში

5. შეფასების შედეგები

Mafin 2.5 არის PageIndex-ზე დაფუძნებული ფინანსური დოკუმენტების კითხვა-პასუხის სისტემა. FinanceBench-ზე (ფინანსური დოკუმენტების QA ეტალონური ტესტირება) მისი შესრულება აღწევს 98.7% სიზუსტეს, რაც მნიშვნელოვნად აღემატება Perplexity-ს (45%) და GPT-4o-ს (31%).

6. გამოყენების სცენარები

შესაფერისია: მკაფიო იერარქიული სტრუქტურის მქონე გრძელი დოკუმენტებისთვის (ფინანსური ანგარიშები, კანონები, სახელმძღვანელოები, ინსტრუქციები), მოცულობით ათეულობით ასეულ გვერდამდე

არ არის შესაფერისი: არასტრუქტურირებული შინაარსის მქონე დოკუმენტებისთვის, OCR-ის გარეშე სკანირებული დოკუმენტებისთვის, ცხრილების/დიაგრამების ძირითადი შემცველობის მქონე დოკუმენტებისთვის, სცენარებისთვის, რომლებიც საჭიროებენ მილიწამიანი რეალურ დროში რეაგირებას

7. შეჯამება

PageIndex-ის ძირითადი წვლილი მდგომარეობს პრაქტიკული ვექტორების გარეშე RAG პარადიგმის შეთავაზებაში: დოკუმენტის ბუნებრივი სტრუქტურის გამოყენება ხის ინდექსის ასაგებად, LLM-ის დასკვნის გამოყენება ვექტორული მსგავსების ძიების ნაცვლად. ეს გადაწყვეტა შესანიშნავად მუშაობს მკაფიო იერარქიული სტრუქტურის მქონე პროფესიონალური გრძელი დოკუმენტების სცენარებში და მისი ახსნადობა და აუდიტის შესაძლებლობა ასევე მნიშვნელოვნად აღემატება ტრადიციულ გადაწყვეტილებებს.