PageIndex ಆಳವಾದ ವಿಶ್ಲೇಷಣೆ: ವೆಕ್ಟರ್ ರಹಿತ ತಾರ್ಕಿಕ RAG, AI ಅನ್ನು ಮಾನವ ತಜ್ಞರಂತೆ ಡಾಕ್ಯುಮೆಂಟ್ ಓದಲು ಅನುಮತಿಸುತ್ತದೆ

PageIndex ಎಂಬುದು Vectify AI ತಂಡವು ತೆರೆದ ಮೂಲದಲ್ಲಿ ಬಿಡುಗಡೆ ಮಾಡಿದ ವೆಕ್ಟರ್ ರಹಿತ, ತಾರ್ಕಿಕ RAG ಚೌಕಟ್ಟು (GitHub 14.8k+ ನಕ್ಷತ್ರಗಳು). ಇದು ದೀರ್ಘ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳನ್ನು ಶ್ರೇಣೀಕೃತ ಟ್ರೀ ಇಂಡೆಕ್ಸ್‌ಗೆ ಪರಿವರ್ತಿಸುತ್ತದೆ, ಟ್ರೀನಲ್ಲಿ ತಾರ್ಕಿಕ ಹುಡುಕಾಟವನ್ನು ಮಾಡಲು LLM ಅನ್ನು ಬಳಸುತ್ತದೆ ಮತ್ತು FinanceBench ಹಣಕಾಸು ಡಾಕ್ಯುಮೆಂಟ್ ಪ್ರಶ್ನೋತ್ತರ ಮಾನದಂಡದಲ್ಲಿ 98.7% ನಿಖರತೆಯನ್ನು ಸಾಧಿಸುತ್ತದೆ.

1. ಹಿನ್ನೆಲೆ: ಸಾಂಪ್ರದಾಯಿಕ RAG ನ ಐದು ನೋವುಗಳು

RAG ದೊಡ್ಡ ಮಾದರಿ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಿಗೆ ವಾಸ್ತವಿಕ ಮಾನದಂಡವಾಗಿದೆ. ಮುಖ್ಯವಾಹಿನಿಯ ಪರಿಹಾರಗಳು ಪೂರ್ವ-ಸಂಸ್ಕರಣಾ ಹಂತದಲ್ಲಿ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳನ್ನು ಸ್ಥಿರ ಉದ್ದದ ಚಂಕ್‌ಗಳಾಗಿ ವಿಭಜಿಸುತ್ತವೆ, ಎಂಬೆಡಿಂಗ್ ಮಾದರಿಯ ಮೂಲಕ ವೆಕ್ಟರ್‌ಗಳಾಗಿ ಪರಿವರ್ತಿಸುತ್ತವೆ ಮತ್ತು ವೆಕ್ಟರ್ ಡೇಟಾಬೇಸ್‌ನಲ್ಲಿ ಸಂಗ್ರಹಿಸುತ್ತವೆ; ಪ್ರಶ್ನಿಸುವಾಗ, ಬಳಕೆದಾರರ ಪ್ರಶ್ನೆಗೆ ಅದೇ ಎಂಬೆಡಿಂಗ್ ಅನ್ನು ಮಾಡಲಾಗುತ್ತದೆ, ತದನಂತರ ಟಾಪ್-ಕೆ ಫಲಿತಾಂಶಗಳನ್ನು ವೆಕ್ಟರ್ ಹೋಲಿಕೆಯ ಹುಡುಕಾಟದ ಮೂಲಕ ಹಿಂಪಡೆಯಲಾಗುತ್ತದೆ ಮತ್ತು LLM ನ ಇನ್‌ಪುಟ್ ಸಂದರ್ಭವಾಗಿ ಒಟ್ಟಿಗೆ ಜೋಡಿಸಲಾಗುತ್ತದೆ.

ಈ ಪ್ರಕ್ರಿಯೆಯು ಸಣ್ಣ ಪಠ್ಯ ಮತ್ತು ಸಾಮಾನ್ಯ ಸನ್ನಿವೇಶಗಳಲ್ಲಿ ಪರಿಣಾಮಕಾರಿಯಾಗಿದೆ, ಆದರೆ ವೃತ್ತಿಪರ ದೀರ್ಘ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳು (ಹಣಕಾಸು ವರದಿಗಳು, ಕಾನೂನುಗಳು ಮತ್ತು ನಿಬಂಧನೆಗಳು, ತಾಂತ್ರಿಕ ಕೈಪಿಡಿಗಳು, ಇತ್ಯಾದಿ) ಸನ್ನಿವೇಶಗಳಲ್ಲಿ, ಇದು ಐದು ಮೂಲಭೂತ ಸಮಸ್ಯೆಗಳನ್ನು ಬಹಿರಂಗಪಡಿಸುತ್ತದೆ:

**1) ಹೋಲಿಕೆ ≠ ಸಂಬಂಧ. ** ವೆಕ್ಟರ್ ಹುಡುಕಾಟವು "ಶಬ್ದಾರ್ಥೀಯವಾಗಿ ಹೋಲುವ ಪಠ್ಯ ಬ್ಲಾಕ್ = ಅತ್ಯಂತ ಸಂಬಂಧಿತ ಉತ್ತರದ ಮೂಲ" ಎಂದು ಊಹಿಸುತ್ತದೆ, ಆದರೆ ವೃತ್ತಿಪರ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳಲ್ಲಿ, ಹೆಚ್ಚಿನ ಸಂಖ್ಯೆಯ ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳು ಸರಿಸುಮಾರು ಒಂದೇ ರೀತಿಯ ಶಬ್ದಾರ್ಥವನ್ನು ಹಂಚಿಕೊಳ್ಳುತ್ತವೆ ಆದರೆ ಪ್ರಮುಖ ವಿವರಗಳಲ್ಲಿ ದೊಡ್ಡ ವ್ಯತ್ಯಾಸಗಳನ್ನು ಹೊಂದಿವೆ.

**2) ಹಾರ್ಡ್ ಚಂಕಿಂಗ್ ಸಂದರ್ಭದ ಸಮಗ್ರತೆಯನ್ನು ನಾಶಪಡಿಸುತ್ತದೆ. ** 512 ಅಥವಾ 1024 ಟೋಕನ್‌ಗಳ ಸ್ಥಿರ ವಿಂಡೋ ಮೂಲಕ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳನ್ನು ವಿಭಜಿಸುವುದು ವಾಕ್ಯಗಳು, ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳು ಅಥವಾ ಸಂಪೂರ್ಣ ತಾರ್ಕಿಕ ವಿಭಾಗಗಳನ್ನು ಕಡಿತಗೊಳಿಸುತ್ತದೆ, ಇದು ಪ್ರಮುಖ ಸಂದರ್ಭದ ನಷ್ಟಕ್ಕೆ ಕಾರಣವಾಗುತ್ತದೆ.

**3) ಪ್ರಶ್ನೆ ಉದ್ದೇಶ ಮತ್ತು ಜ್ಞಾನದ ಸ್ಥಳವು ತಪ್ಪಾಗಿದೆ. ** ಬಳಕೆದಾರರ ಪ್ರಶ್ನೆಯು "ಉದ್ದೇಶ" ವನ್ನು ವ್ಯಕ್ತಪಡಿಸುತ್ತದೆ ಆದರೆ "ವಿಷಯ" ವನ್ನು ಅಲ್ಲ, ಮತ್ತು ಪ್ರಶ್ನೆ ಎಂಬೆಡಿಂಗ್ ಮತ್ತು ಡಾಕ್ಯುಮೆಂಟ್ ಎಂಬೆಡಿಂಗ್ ವಿಭಿನ್ನ ಶಬ್ದಾರ್ಥದ ಸ್ಥಳಗಳಲ್ಲಿವೆ.

**4) ಡಾಕ್ಯುಮೆಂಟ್‌ನಲ್ಲಿ ಉಲ್ಲೇಖಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ. ** ವೃತ್ತಿಪರ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳಲ್ಲಿ "ವಿವರಗಳಿಗಾಗಿ ಅನುಬಂಧ G ಅನ್ನು ನೋಡಿ" ಅಥವಾ "ಕೋಷ್ಟಕ 5.3 ಅನ್ನು ಉಲ್ಲೇಖಿಸಿ" ಮುಂತಾದ ಉಲ್ಲೇಖಗಳು ಸಾಮಾನ್ಯವಾಗಿದೆ. ಈ ಉಲ್ಲೇಖಗಳು ಮತ್ತು ಉಲ್ಲೇಖಿಸಲಾದ ವಿಷಯದ ನಡುವೆ ಯಾವುದೇ ಶಬ್ದಾರ್ಥದ ಹೋಲಿಕೆ ಇಲ್ಲ, ಮತ್ತು ವೆಕ್ಟರ್ ಹುಡುಕಾಟವು ಹೊಂದಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ.

**5) ಸ್ವತಂತ್ರ ಪ್ರಶ್ನೆ, ಸಂವಾದದ ಇತಿಹಾಸವನ್ನು ಬಳಸಲು ಸಾಧ್ಯವಿಲ್ಲ. ** ಪ್ರತಿ ಹುಡುಕಾಟವು ಪ್ರಶ್ನೆಯನ್ನು ಸ್ವತಂತ್ರ ವಿನಂತಿಯಾಗಿ ಪರಿಗಣಿಸುತ್ತದೆ ಮತ್ತು ಹಿಂದಿನ ಸಂವಾದದ ಸಂದರ್ಭದೊಂದಿಗೆ ಕ್ರಮೇಣ ಹುಡುಕಾಟವನ್ನು ಸಂಯೋಜಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ.

2. PageIndex ಒಟ್ಟಾರೆ ವಾಸ್ತುಶಿಲ್ಪ

PageIndex ಒಂದು ವೆಕ್ಟರ್ ರಹಿತ (Vectorless), ತಾರ್ಕಿಕ (Reasoning-based) RAG ಚೌಕಟ್ಟು. ಇದರ ಮೂಲ ಕಲ್ಪನೆ ಹೀಗಿದೆ: ಮಾದರಿಯು ವೆಕ್ಟರ್ ಜಾಗದಲ್ಲಿ ಅಂದಾಜು ಹೊಂದಾಣಿಕೆಯನ್ನು ಮಾಡುವ ಬದಲು, ಡಾಕ್ಯುಮೆಂಟ್‌ನ ರಚನಾತ್ಮಕ ಪ್ರಾತಿನಿಧ್ಯದ ಮೇಲೆ ತಾರ್ಕಿಕತೆಯನ್ನು ಮಾಡುವುದು ಉತ್ತಮ - "ಎಲ್ಲಿ ನೋಡಬೇಕು" ಎಂದು ನಿರ್ಧರಿಸುವುದು, ಕೇವಲ "ಏನು ಹೋಲುತ್ತದೆ" ಎಂಬುದನ್ನು ಅಲ್ಲ.

PageIndex ದೀರ್ಘ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳನ್ನು ಓದುವಲ್ಲಿ ಮಾನವ ತಜ್ಞರ ವಿಧಾನವನ್ನು ಅನುಕರಿಸುತ್ತದೆ: ಮೊದಲು ವಿಷಯಗಳ ಕೋಷ್ಟಕವನ್ನು ಬ್ರೌಸ್ ಮಾಡಿ, ಪ್ರಶ್ನೆಗೆ ಅನುಗುಣವಾಗಿ ಸಂಬಂಧಿತ ಅಧ್ಯಾಯಗಳನ್ನು ನಿರ್ಣಯಿಸಿ ಮತ್ತು ಗುರಿ ವಿಷಯವನ್ನು ಕಂಡುಹಿಡಿಯುವವರೆಗೆ ಕ್ರಮೇಣವಾಗಿ ಆಳವಾಗಿ ಹೋಗಿ. ಈ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಎರಡು ಹಂತಗಳ ಮೂಲಕ ಸಾಧಿಸಲಾಗುತ್ತದೆ:

ಟ್ರೀ ರಚನೆಯ ಸೂಚ್ಯಂಕವನ್ನು ನಿರ್ಮಿಸಿ: PDF/Markdown ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳನ್ನು ಶ್ರೇಣೀಕೃತ JSON ಟ್ರೀ ಆಗಿ ಪರಿವರ್ತಿಸಿ, "LLM ಗಾಗಿ ಆಪ್ಟಿಮೈಸ್ ಮಾಡಿದ ವಿಷಯಗಳ ಕೋಷ್ಟಕ" ಕ್ಕೆ ಹೋಲುತ್ತದೆ
ತಾರ್ಕಿಕ ಟ್ರೀ ಹುಡುಕಾಟ: LLM ಪ್ರಶ್ನೆಗೆ ಅನುಗುಣವಾಗಿ ಟ್ರೀನಲ್ಲಿ ತಾರ್ಕಿಕ ನ್ಯಾವಿಗೇಷನ್ ಅನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ, ಸಂಬಂಧಿತ ನೋಡ್‌ಗಳನ್ನು ಪತ್ತೆ ಮಾಡುತ್ತದೆ, ವಿಷಯವನ್ನು ಹೊರತೆಗೆಯುತ್ತದೆ ಮತ್ತು ಉತ್ತರಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ

3. ಪ್ರಮುಖ ಮಾಡ್ಯೂಲ್‌ಗಳ ವಿಭಜನೆ

3.1 PDF ಸಂಸ್ಕರಣಾ ಪೈಪ್‌ಲೈನ್

PageIndex ನ PDF ಸಂಸ್ಕರಣಾ ಪೈಪ್‌ಲೈನ್ ಅನ್ನು tree_parser() ಕಾರ್ಯದಿಂದ ಆಯೋಜಿಸಲಾಗಿದೆ. ಪ್ರಮುಖ ಪ್ರಕ್ರಿಯೆಗಳು ವಿಷಯಗಳ ಕೋಷ್ಟಕ ಪತ್ತೆ (ಮೂರು ಮೋಡ್ ಶಾಖೆಗಳು), ಮುನ್ನುಡಿಯನ್ನು ಪೂರಕಗೊಳಿಸುವುದು, ಫ್ಲಾಟ್ ಪಟ್ಟಿಯನ್ನು ಶ್ರೇಣೀಕೃತ ಟ್ರೀ ಆಗಿ ಪರಿವರ್ತಿಸುವುದು, ದೊಡ್ಡ ನೋಡ್‌ಗಳನ್ನು ಮರುಕಳಿಸುವಂತೆ ವಿಭಜಿಸುವುದು, ನೋಡ್‌ಗಳನ್ನು ಸಮೃದ್ಧಗೊಳಿಸುವುದು ಮತ್ತು JSON ಟ್ರೀ ರಚನೆಯ ಔಟ್‌ಪುಟ್ ಅನ್ನು ಒಳಗೊಂಡಿವೆ.

ಮೂರು ಸಂಸ್ಕರಣಾ ವಿಧಾನಗಳು:

process_toc_with_page_numbers (ವಿಷಯಗಳ ಕೋಷ್ಟಕ + ಪುಟ ಸಂಖ್ಯೆಗಳು): LLM ಅನ್ನು ಬಳಸಿಕೊಂಡು ಮೂಲ ವಿಷಯಗಳ ಕೋಷ್ಟಕವನ್ನು ರಚನಾತ್ಮಕ JSON ಆಗಿ ಪರಿವರ್ತಿಸಿ ಮತ್ತು ತಾರ್ಕಿಕ ಪುಟ ಸಂಖ್ಯೆಗಳನ್ನು ಭೌತಿಕ ಪುಟ ಸಂಖ್ಯೆಗಳಿಗೆ ಮ್ಯಾಪ್ ಮಾಡಿ
process_no_toc (ವಿಷಯಗಳ ಕೋಷ್ಟಕವಿಲ್ಲ): LLM ನಿಂದ ಮುಖ್ಯ ಪಠ್ಯದ ವಿಷಯದಿಂದ ನೇರವಾಗಿ ಶ್ರೇಣಿಯ ರಚನೆಯನ್ನು ಊಹಿಸಿ
process_toc_no_page_numbers (ವಿಷಯಗಳ ಕೋಷ್ಟಕವಿದೆ ಆದರೆ ಪುಟ ಸಂಖ್ಯೆಗಳಿಲ್ಲ): ರಚನೆಯನ್ನು ಹೊರತೆಗೆಯಿರಿ ಮತ್ತು ನಂತರ ಭೌತಿಕ ಪುಟ ಸಂಖ್ಯೆಗಳನ್ನು ಪೂರಕವಾಗಿ ಊಹಿಸಿ

3.2 ಟ್ರೀ ರಚನೆಯ ಡೇಟಾ ಮಾದರಿ

ಟ್ರೀನಲ್ಲಿನ ಪ್ರತಿಯೊಂದು ನೋಡ್ ಈ ಕೆಳಗಿನ ಕ್ಷೇತ್ರಗಳನ್ನು ಒಳಗೊಂಡಿದೆ: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (ಮಕ್ಕಳ ನೋಡ್‌ಗಳ ಅರೇ), ಇತ್ಯಾದಿ.

3.3 ತಾರ್ಕಿಕ ಹುಡುಕಾಟ ಕಾರ್ಯವಿಧಾನ

ಹುಡುಕಾಟ ಹಂತವು ಯಾವುದೇ ವೆಕ್ಟರ್ ಲೆಕ್ಕಾಚಾರವನ್ನು ಅವಲಂಬಿಸಿಲ್ಲ. LLM ಬಳಕೆದಾರರ ಪ್ರಶ್ನೆ ಮತ್ತು ಡಾಕ್ಯುಮೆಂಟ್ ಟ್ರೀ ರಚನೆಯನ್ನು ಸ್ವೀಕರಿಸುತ್ತದೆ, ನೋಡ್ ಶೀರ್ಷಿಕೆಗಳು ಮತ್ತು ಸಾರಾಂಶಗಳ ಆಧಾರದ ಮೇಲೆ ತಾರ್ಕಿಕತೆಯನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ ಮತ್ತು ಅದರ "ಆಲೋಚನಾ ಪ್ರಕ್ರಿಯೆ" ಮತ್ತು ಸಂಬಂಧಿತ node_id ಗಳ ಪಟ್ಟಿಯನ್ನು ಔಟ್‌ಪುಟ್ ಮಾಡುತ್ತದೆ. ಸಿಸ್ಟಮ್ ನಂತರ node_id ಗೆ ಅನುಗುಣವಾಗಿ node_map ನಿಂದ ಅನುಗುಣವಾದ ನೋಡ್‌ನ ಸಂಪೂರ್ಣ ಪಠ್ಯವನ್ನು ಹೊರತೆಗೆಯುತ್ತದೆ, ಅದನ್ನು ಸಂದರ್ಭವಾಗಿ ಒಟ್ಟಿಗೆ ಜೋಡಿಸುತ್ತದೆ ಮತ್ತು ಅಂತಿಮ ಉತ್ತರವನ್ನು ಉತ್ಪಾದಿಸಲು LLM ಗೆ ನೀಡುತ್ತದೆ.

4. ಪ್ರಮುಖ ವಿನ್ಯಾಸ ಮುಖ್ಯಾಂಶಗಳು

ವೆಕ್ಟರ್ ರಹಿತ ವಾಸ್ತುಶಿಲ್ಪ: ಎಂಬೆಡಿಂಗ್ ಮಾದರಿ ಮತ್ತು ವೆಕ್ಟರ್ ಡೇಟಾಬೇಸ್ ಅಗತ್ಯವಿಲ್ಲ, ಮೂಲಸೌಕರ್ಯ ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಮತ್ತು ನಿಯೋಜನೆಯನ್ನು ಸರಳಗೊಳಿಸುತ್ತದೆ
ಡಾಕ್ಯುಮೆಂಟ್‌ನ ನೈಸರ್ಗಿಕ ರಚನೆಯನ್ನು ಉಳಿಸಿಕೊಳ್ಳಿ: ಡಾಕ್ಯುಮೆಂಟ್‌ನ ಅಂತರ್ಗತ ಅಧ್ಯಾಯಗಳು/ವಿಭಾಗಗಳು/ಉಪವಿಭಾಗಗಳ ಮೂಲಕ ವಿಷಯವನ್ನು ಆಯೋಜಿಸಿ, ಚಂಕ್‌ನಾದ್ಯಂತ ಸಂದರ್ಭದ ನಷ್ಟವನ್ನು ತಪ್ಪಿಸಿ
ಹುಡುಕಾಟದ ವ್ಯಾಖ್ಯಾನಾತ್ಮಕತೆ: ಪ್ರತಿ ಹುಡುಕಾಟವು ಸಂಪೂರ್ಣ ತಾರ್ಕಿಕ ಸರಪಳಿಯನ್ನು ಹಿಂದಿರುಗಿಸುತ್ತದೆ, ಇದು ಹೆಚ್ಚಿನ ಅನುಸರಣೆ ಅಗತ್ಯತೆಗಳನ್ನು ಹೊಂದಿರುವ ಸನ್ನಿವೇಶಗಳಲ್ಲಿ ಸ್ಪಷ್ಟ ಪ್ರಯೋಜನವನ್ನು ಹೊಂದಿದೆ

5. ಮೌಲ್ಯಮಾಪನ ಫಲಿತಾಂಶಗಳು

Mafin 2.5 ಎಂಬುದು PageIndex ಅನ್ನು ಆಧರಿಸಿದ ಹಣಕಾಸು ಡಾಕ್ಯುಮೆಂಟ್ ಪ್ರಶ್ನೋತ್ತರ ವ್ಯವಸ್ಥೆಯಾಗಿದೆ. FinanceBench (ಹಣಕಾಸು ಡಾಕ್ಯುಮೆಂಟ್ QA ಮಾನದಂಡ ಪರೀಕ್ಷೆ) ನಲ್ಲಿನ ಕಾರ್ಯಕ್ಷಮತೆ 98.7% ನಿಖರತೆಯನ್ನು ತಲುಪಿದೆ, ಇದು Perplexity (45%) ಮತ್ತು GPT-4o (31%) ಗಿಂತ ಹೆಚ್ಚು.

6. ಅನ್ವಯಿಸುವ ಸನ್ನಿವೇಶಗಳು

ಸೂಕ್ತವಾಗಿದೆ: ಸ್ಪಷ್ಟ ಶ್ರೇಣಿಯ ರಚನೆಯನ್ನು ಹೊಂದಿರುವ ದೀರ್ಘ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳು (ಹಣಕಾಸು ವರದಿಗಳು, ನಿಯಮಗಳು, ಪಠ್ಯಪುಸ್ತಕಗಳು, ಕೈಪಿಡಿಗಳು), ಹತ್ತಾರು ಪುಟಗಳಿಂದ ನೂರಾರು ಪುಟಗಳವರೆಗೆ

ಸೂಕ್ತವಲ್ಲ: ರಚನೆಯಿಲ್ಲದ ವಿಷಯವನ್ನು ಹೊಂದಿರುವ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳು, OCR ಮಾಡದ ಸ್ಕ್ಯಾನ್‌ಗಳು, ಕೋಷ್ಟಕಗಳು/ಚಾರ್ಟ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುವ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳು, ಮಿಲಿಸೆಕೆಂಡ್-ಮಟ್ಟದ ನೈಜ-ಸಮಯದ ಪ್ರತಿಕ್ರಿಯೆಯ ಅಗತ್ಯವಿರುವ ಸನ್ನಿವೇಶಗಳು

7. ಸಾರಾಂಶ

PageIndex ನ ಪ್ರಮುಖ ಕೊಡುಗೆಯೆಂದರೆ ಪ್ರಾಯೋಗಿಕ ವೆಕ್ಟರ್ ರಹಿತ RAG ಮಾದರಿಯನ್ನು ಪ್ರಸ್ತಾಪಿಸುವುದು: ಡಾಕ್ಯುಮೆಂಟ್‌ನ ನೈಸರ್ಗಿಕ ರಚನೆಯೊಂದಿಗೆ ಟ್ರೀ ಇಂಡೆಕ್ಸ್ ಅನ್ನು ನಿರ್ಮಿಸಿ ಮತ್ತು ವೆಕ್ಟರ್ ಹೋಲಿಕೆಯ ಹುಡುಕಾಟವನ್ನು ಬದಲಿಸಲು LLM ತಾರ್ಕಿಕತೆಯನ್ನು ಬಳಸಿ. ಈ ಪರಿಹಾರವು ಸ್ಪಷ್ಟ ಶ್ರೇಣಿಯ ರಚನೆಯನ್ನು ಹೊಂದಿರುವ ವೃತ್ತಿಪರ ದೀರ್ಘ ಡಾಕ್ಯುಮೆಂಟ್ ಸನ್ನಿವೇಶಗಳಲ್ಲಿ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಮತ್ತು ವ್ಯಾಖ್ಯಾನಾತ್ಮಕತೆ ಮತ್ತು ಲೆಕ್ಕಪರಿಶೋಧನೆಯು ಸಾಂಪ್ರದಾಯಿಕ ಪರಿಹಾರಗಳಿಗಿಂತ ಗಮನಾರ್ಹವಾಗಿ ಉತ್ತಮವಾಗಿದೆ.

PageIndex ಆಳವಾದ ವಿಶ್ಲೇಷಣೆ: ವೆಕ್ಟರ್ ರಹಿತ ತಾರ್ಕಿಕ RAG, AI ಅನ್ನು ಮಾನವ ತಜ್ಞರಂತೆ ಡಾಕ್ಯುಮೆಂಟ್ ಓದಲು ಅನುಮತಿಸುತ್ತದೆ

1. ಹಿನ್ನೆಲೆ: ಸಾಂಪ್ರದಾಯಿಕ RAG ನ ಐದು ನೋವುಗಳು

2. PageIndex ಒಟ್ಟಾರೆ ವಾಸ್ತುಶಿಲ್ಪ

3. ಪ್ರಮುಖ ಮಾಡ್ಯೂಲ್‌ಗಳ ವಿಭಜನೆ

3.1 PDF ಸಂಸ್ಕರಣಾ ಪೈಪ್‌ಲೈನ್

3.2 ಟ್ರೀ ರಚನೆಯ ಡೇಟಾ ಮಾದರಿ

3.3 ತಾರ್ಕಿಕ ಹುಡುಕಾಟ ಕಾರ್ಯವಿಧಾನ

4. ಪ್ರಮುಖ ವಿನ್ಯಾಸ ಮುಖ್ಯಾಂಶಗಳು

5. ಮೌಲ್ಯಮಾಪನ ಫಲಿತಾಂಶಗಳು

6. ಅನ್ವಯಿಸುವ ಸನ್ನಿವೇಶಗಳು

7. ಸಾರಾಂಶ

You Might Also Like

Claude Code Buddy ಪರಿಷ್ಕರಣೆ ಮಾರ್ಗದರ್ಶಿ: ಹೇಗೆ ಹೊಳೆಯುವ ಪುರಾಣ ಮಟ್ಟದ ಪೆಟ್ನನ್ನು ಪಡೆಯುವುದು

Obsidian Defuddle ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿತು, Obsidian ವೆಬ್ ಕ್ಲಿಪ್ಪರ್ ಅನ್ನು ಹೊಸ ಎತ್ತರಕ್ಕೆ ತಂದುಕೊಂಡಿತು

ಅವರು ತೀವ್ರವಾಗಿ ತೂಕ ಕಡಿಮೆ ಮಾಡಲು ಪ್ರಯತ್ನಿಸುತ್ತಿರುವ ತಾಯಿಗಳು, ಖಂಡಿತವಾಗಿ ಇಲ್ಲಿ ಬಿದ್ದಿದ್ದಾರೆ

AI Browser 24 ಗಂಟೆಗಳ ಸ್ಥಿರ ಕಾರ್ಯಾಚರಣೆ ಮಾರ್ಗದರ್ಶಿ