PageIndex-এর গভীর বিশ্লেষণ: ভেক্টরবিহীন যুক্তিনির্ভর RAG, AI-কে মানুষের মতো বিশেষজ্ঞের মতো ডকুমেন্ট পড়তে দেয়

2/15/2026
5 min read

PageIndex হল Vectify AI টিম দ্বারা ওপেন সোর্স করা ভেক্টরবিহীন, যুক্তিনির্ভর RAG ফ্রেমওয়ার্ক (GitHub 14.8k+ stars)। এটি দীর্ঘ ডকুমেন্টকে স্তরীয় ট্রি ইন্ডেক্সে রূপান্তরিত করে, LLM ব্যবহার করে ট্রি-তে যুক্তিনির্ভর অনুসন্ধানের মাধ্যমে FinanceBench আর্থিক ডকুমেন্ট প্রশ্ন-উত্তর বেঞ্চমার্কে 98.7% নির্ভুলতা অর্জন করে।

1. প্রেক্ষাপট: ঐতিহ্যবাহী RAG-এর পাঁচটি দুর্বলতা

RAG এখন বৃহৎ মডেল অ্যাপ্লিকেশনের একটি বাস্তব মানদণ্ড। মূলধারার সমাধানগুলি প্রিপ্রসেসিং পর্যায়ে ডকুমেন্টকে নির্দিষ্ট দৈর্ঘ্যের চঙ্কে বিভক্ত করে, এম্বেডিং মডেলের মাধ্যমে ভেক্টরে রূপান্তরিত করে এবং ভেক্টর ডেটাবেসে সংরক্ষণ করে; অনুসন্ধানের সময়, ব্যবহারকারীর প্রশ্নের একই এম্বেডিং করা হয় এবং ভেক্টর সাদৃশ্যের মাধ্যমে শীর্ষ-K ফলাফল পুনরুদ্ধার করা হয়, যা LLM-এর ইনপুট প্রসঙ্গ হিসাবে একত্রিত করা হয়।

এই প্রক্রিয়াটি ছোট টেক্সট এবং সাধারণ পরিস্থিতিতে কার্যকর, কিন্তু পেশাদার দীর্ঘ ডকুমেন্ট (আর্থিক প্রতিবেদন, আইন ও বিধি, প্রযুক্তিগত ম্যানুয়াল ইত্যাদি) পরিস্থিতিতে পাঁচটি মৌলিক সমস্যা প্রকাশ করে:

1) সাদৃশ্য ≠ প্রাসঙ্গিকতা। ভেক্টর পুনরুদ্ধার অনুমান করে যে "শব্দার্থগতভাবে সবচেয়ে অনুরূপ টেক্সট ব্লক = সবচেয়ে প্রাসঙ্গিক উত্তরের উৎস", কিন্তু পেশাদার ডকুমেন্টগুলিতে, প্রচুর অনুচ্ছেদ প্রায় একই রকম শব্দার্থ ভাগ করে নেয় কিন্তু গুরুত্বপূর্ণ বিবরণে বিশাল পার্থক্য থাকে।

2) কঠিন বিভাজন প্রসঙ্গটির সম্পূর্ণতা নষ্ট করে। 512 বা 1024 টোকেনের একটি নির্দিষ্ট উইন্ডো অনুসারে ডকুমেন্টকে বিভক্ত করলে বাক্য, অনুচ্ছেদ বা এমনকি পুরো লজিক্যাল বিভাগটি কেটে যেতে পারে, যার ফলে গুরুত্বপূর্ণ প্রসঙ্গ হারিয়ে যায়।

3) অনুসন্ধানের উদ্দেশ্য এবং জ্ঞানের স্থানের মধ্যে অমিল। ব্যবহারকারীর অনুসন্ধান একটি "উদ্দেশ্য" প্রকাশ করে, "বিষয়বস্তু" নয়, query embedding এবং document embedding ভিন্ন শব্দার্থিক স্থানে থাকে।

4) ডকুমেন্টের অভ্যন্তরীণ উদ্ধৃতিগুলি প্রক্রিয়া করতে অক্ষম। পেশাদার ডকুমেন্টগুলিতে প্রায়শই "বিস্তারিত জানার জন্য পরিশিষ্ট G দেখুন" বা "সারণী 5.3 দেখুন" জাতীয় উদ্ধৃতি থাকে। এই উদ্ধৃতি এবং উদ্ধৃত বিষয়বস্তুর মধ্যে কোনও শব্দার্থিক সাদৃশ্য নেই, তাই ভেক্টর পুনরুদ্ধার মিল খুঁজে বের করতে পারে না।

5) স্বতন্ত্র অনুসন্ধান, কথোপকথনের ইতিহাস ব্যবহার করতে অক্ষম। প্রতিটি অনুসন্ধানকে একটি স্বতন্ত্র অনুরোধ হিসাবে বিবেচনা করা হয়, পূর্ববর্তী কথোপকথনের প্রসঙ্গ ব্যবহার করে ক্রমবর্ধমান অনুসন্ধান করা যায় না।

2. PageIndex-এর সামগ্রিক আর্কিটেকচার

PageIndex হল একটি ভেক্টরবিহীন (Vectorless), যুক্তিনির্ভর (Reasoning-based) RAG ফ্রেমওয়ার্ক। এর মূল ধারণা হল: মডেলকে ভেক্টর স্পেসে আনুমানিক মিল করার পরিবর্তে, ডকুমেন্টের স্ট্রাকচার্ড উপস্থাপনার উপর ভিত্তি করে যুক্তি তৈরি করতে দেওয়া - শুধুমাত্র "কী দেখতে একই রকম" তা নয়, বরং "কোথায় দেখতে হবে" তা নির্ধারণ করা।

PageIndex একটি দীর্ঘ ডকুমেন্ট পড়ার ক্ষেত্রে মানুষের বিশেষজ্ঞদের পদ্ধতি অনুকরণ করে: প্রথমে সূচিপত্র দেখে, প্রশ্নের ভিত্তিতে প্রাসঙ্গিক অধ্যায়গুলি নির্ধারণ করে এবং লক্ষ্যবস্তু খুঁজে না পাওয়া পর্যন্ত ধীরে ধীরে গভীরে যায়। এই প্রক্রিয়াটি দুটি ধাপে সম্পন্ন করা হয়:

  • ট্রি স্ট্রাকচার ইন্ডেক্স তৈরি করা: PDF/Markdown ডকুমেন্টকে স্তরীয় JSON ট্রিতে রূপান্তরিত করা, যা অনেকটা "LLM-এর জন্য অপ্টিমাইজ করা সূচিপত্রের" মতো।
  • যুক্তিনির্ভর ট্রি অনুসন্ধান: LLM প্রশ্নের ভিত্তিতে ট্রিতে যুক্তি তৈরি করে নেভিগেট করে, প্রাসঙ্গিক নোডগুলি সনাক্ত করে, বিষয়বস্তু নিষ্কাশন করে এবং উত্তর তৈরি করে।

3. মূল মডিউলগুলির বিশ্লেষণ

3.1 PDF প্রক্রিয়াকরণ পাইপলাইন

PageIndex-এর PDF প্রক্রিয়াকরণ পাইপলাইনটি tree_parser() ফাংশন দ্বারা সাজানো হয়। মূল প্রক্রিয়াগুলির মধ্যে রয়েছে: সূচিপত্র সনাক্তকরণ (তিনটি মোড শাখা), ভূমিকা যোগ করা, ফ্ল্যাট তালিকা থেকে স্তরীয় ট্রিতে রূপান্তর, বৃহৎ নোডগুলির পুনরাবৃত্তিমূলক উপবিভাজন, নোডগুলিকে সমৃদ্ধ করা, JSON ট্রি স্ট্রাকচার আউটপুট।

তিনটি প্রক্রিয়াকরণ মোড:

  • process_toc_with_page_numbers (সূচিপত্র + পৃষ্ঠা নম্বর সহ): LLM ব্যবহার করে মূল সূচিপত্রকে স্ট্রাকচার্ড JSON-এ রূপান্তর করা, লজিক্যাল পৃষ্ঠা নম্বরগুলিকে ফিজিক্যাল পৃষ্ঠা নম্বরের সাথে ম্যাপ করা।
  • process_no_toc (সূচিপত্র ছাড়া): LLM সরাসরি মূল টেক্সট থেকে স্তরীয় কাঠামো অনুমান করে।
  • process_toc_no_page_numbers (সূচিপত্র আছে কিন্তু পৃষ্ঠা নম্বর নেই): কাঠামো নিষ্কাশন করার পরে ফিজিক্যাল পৃষ্ঠা নম্বরগুলি অনুমান করে যোগ করা হয়।

3.2 ট্রি স্ট্রাকচার ডেটা মডেল

ট্রির প্রতিটি নোডে নিম্নলিখিত ক্ষেত্রগুলি অন্তর্ভুক্ত থাকে: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (সাবনোড অ্যারে) ইত্যাদি।

3.3 যুক্তিনির্ভর পুনরুদ্ধার প্রক্রিয়া

পুনরুদ্ধার পর্যায়ে কোনও ভেক্টর গণনার উপর নির্ভর করা হয় না। LLM ব্যবহারকারীর প্রশ্ন এবং ডকুমেন্ট ট্রি স্ট্রাকচার গ্রহণ করে, নোডের শিরোনাম এবং সারসংক্ষেপের উপর ভিত্তি করে যুক্তি তৈরি করে এবং এর "চিন্তা প্রক্রিয়া" এবং প্রাসঙ্গিক node_id-এর তালিকা আউটপুট করে। সিস্টেম তখন node_id-এর উপর ভিত্তি করে node_map থেকে সংশ্লিষ্ট নোডের সম্পূর্ণ টেক্সট নিষ্কাশন করে, একত্রিত করে এবং LLM-কে চূড়ান্ত উত্তর তৈরি করার জন্য দেয়।

4. মূল ডিজাইন হাইলাইট

  • ভেক্টরবিহীন আর্কিটেকচার: এম্বেডিং মডেল এবং ভেক্টর ডেটাবেসের প্রয়োজন নেই, অবকাঠামো খরচ হ্রাস করে এবং স্থাপন সরল করে।
  • ডকুমেন্টের স্বাভাবিক কাঠামো বজায় রাখা: ডকুমেন্টের অন্তর্নিহিত অধ্যায়/উপধারা/অধ্যায় অনুসারে বিষয়বস্তু সংগঠিত করা, চঙ্ক জুড়ে প্রসঙ্গের ক্ষতি এড়ানো।
  • পুনরুদ্ধারের ব্যাখ্যাযোগ্যতা: প্রতিটি পুনরুদ্ধার সম্পূর্ণ যুক্তির চেইন প্রদান করে, যা উচ্চ সম্মতির প্রয়োজনীয়তা সম্পন্ন পরিস্থিতিতে একটি সুস্পষ্ট সুবিধা।

5. মূল্যায়ন ফলাফল

Mafin 2.5 হল PageIndex-এর উপর ভিত্তি করে তৈরি একটি আর্থিক ডকুমেন্ট প্রশ্ন-উত্তর সিস্টেম। FinanceBench (আর্থিক ডকুমেন্ট QA বেঞ্চমার্ক পরীক্ষা)-এ এর নির্ভুলতা 98.7%, যা Perplexity (45%) এবং GPT-4o (31%) থেকে অনেক বেশি।

6. উপযুক্ত পরিস্থিতি

উপযুক্ত: সুস্পষ্ট স্তরীয় কাঠামোযুক্ত দীর্ঘ ডকুমেন্ট (আর্থিক প্রতিবেদন, বিধি, পাঠ্যপুস্তক, ম্যানুয়াল), যা কয়েক ডজন থেকে কয়েকশ পৃষ্ঠা পর্যন্ত বিস্তৃত।

উপযুক্ত নয়: অসংগঠিত বিষয়বস্তুর ডকুমেন্ট, OCR ছাড়া স্ক্যান করা ডকুমেন্ট, টেবিল/চার্ট-ভিত্তিক ডকুমেন্ট, মিলি সেকেন্ডে রিয়েল-টাইম প্রতিক্রিয়ার প্রয়োজনীয় পরিস্থিতি।

7. সারসংক্ষেপ

PageIndex-এর মূল অবদান হল একটি ব্যবহারিক ভেক্টরবিহীন RAG দৃষ্টান্ত প্রস্তাব করা: ডকুমেন্টের স্বাভাবিক কাঠামো ব্যবহার করে ট্রি ইন্ডেক্স তৈরি করা এবং ভেক্টর সাদৃশ্য অনুসন্ধানের পরিবর্তে LLM যুক্তি ব্যবহার করা। এই সমাধানটি সুস্পষ্ট স্তরীয় কাঠামোযুক্ত পেশাদার দীর্ঘ ডকুমেন্টের পরিস্থিতিতে চমৎকার পারফর্ম করে এবং ঐতিহ্যবাহী সমাধানের চেয়ে এর ব্যাখ্যাযোগ্যতা এবং নিরীক্ষণযোগ্যতা উল্লেখযোগ্যভাবে ভালো।

Published in Technology

You Might Also Like

কিভাবে ক্লাউড কম্পিউটিং প্রযুক্তি ব্যবহার করবেন: আপনার প্রথম ক্লাউড অবকাঠামো নির্মাণের সম্পূর্ণ গাইডTechnology

কিভাবে ক্লাউড কম্পিউটিং প্রযুক্তি ব্যবহার করবেন: আপনার প্রথম ক্লাউড অবকাঠামো নির্মাণের সম্পূর্ণ গাইড

[[HTMLPLACEHOLDER0]] [[HTMLPLACEHOLDER1]] [[HTMLPLACEHOLDER2]] [[HTMLPLACEHOLDER3]] [[HTMLPLACEHOLDER4]] [[HTMLPLACEHOLD...

সতর্কতা! Claude Code এর জনক স্পষ্ট বললেন: ১ মাস পর Plan Mode ব্যবহার না করলে সফটওয়্যার ইঞ্জিনিয়ারের উপাধি বিলীন হয়ে যাবেTechnology

সতর্কতা! Claude Code এর জনক স্পষ্ট বললেন: ১ মাস পর Plan Mode ব্যবহার না করলে সফটওয়্যার ইঞ্জিনিয়ারের উপাধি বিলীন হয়ে যাবে

সতর্কতা! Claude Code এর জনক স্পষ্ট বললেন: ১ মাস পর Plan Mode ব্যবহার না করলে সফটওয়্যার ইঞ্জিনিয়ারের উপাধি বিলীন হয়ে য...

2026 সালের শীর্ষ 10 গভীর শিক্ষার সম্পদ সুপারিশTechnology

2026 সালের শীর্ষ 10 গভীর শিক্ষার সম্পদ সুপারিশ

2026 সালের শীর্ষ 10 গভীর শিক্ষার সম্পদ সুপারিশ গভীর শিক্ষার বিভিন্ন ক্ষেত্রে দ্রুত উন্নতির সাথে সাথে, আরও বেশি শেখার সম্...

2026 সালের শীর্ষ 10 AI এজেন্ট: মূল বিক্রয় পয়েন্ট বিশ্লেষণTechnology

2026 সালের শীর্ষ 10 AI এজেন্ট: মূল বিক্রয় পয়েন্ট বিশ্লেষণ

2026 সালের শীর্ষ 10 AI এজেন্ট: মূল বিক্রয় পয়েন্ট বিশ্লেষণ ভূমিকা কৃত্রিম বুদ্ধিমত্তার দ্রুত উন্নতির সাথে, AI এজেন্ট (A...

2026 সালের শীর্ষ 10 AI টুলের সুপারিশ: কৃত্রিম বুদ্ধিমত্তার প্রকৃত সম্ভাবনা মুক্ত করুনTechnology

2026 সালের শীর্ষ 10 AI টুলের সুপারিশ: কৃত্রিম বুদ্ধিমত্তার প্রকৃত সম্ভাবনা মুক্ত করুন

2026 সালের শীর্ষ 10 AI টুলের সুপারিশ: কৃত্রিম বুদ্ধিমত্তার প্রকৃত সম্ভাবনা মুক্ত করুন বর্তমান প্রযুক্তির দ্রুত উন্নয়নের...

2026 সালের শীর্ষ 10 AWS টুল এবং সম্পদ সুপারিশTechnology

2026 সালের শীর্ষ 10 AWS টুল এবং সম্পদ সুপারিশ

2026 সালের শীর্ষ 10 AWS টুল এবং সম্পদ সুপারিশ দ্রুত বিকাশমান ক্লাউড কম্পিউটিং ক্ষেত্রে, অ্যামাজন ওয়েব সার্ভিসেস (AWS) স...