PageIndex ਦੀ ਡੂੰਘਾਈ ਨਾਲ ਵਿਆਖਿਆ: ਵੈਕਟਰ-ਮੁਕਤ ਤਰਕ-ਅਧਾਰਿਤ RAG, AI ਨੂੰ ਮਨੁੱਖੀ ਮਾਹਿਰ ਵਾਂਗ ਦਸਤਾਵੇਜ਼ ਪੜ੍ਹਨ ਦਿੰਦਾ ਹੈ

PageIndex Vectify AI ਟੀਮ ਦੁਆਰਾ ਓਪਨ-ਸੋਰਸ ਕੀਤਾ ਗਿਆ ਇੱਕ ਵੈਕਟਰ-ਮੁਕਤ, ਤਰਕ-ਅਧਾਰਿਤ RAG ਫਰੇਮਵਰਕ ਹੈ (GitHub 14.8k+ ਸਟਾਰ)। ਇਹ ਲੰਬੇ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਇੱਕ ਲੜੀਵਾਰ ਟ੍ਰੀ ਇੰਡੈਕਸ ਵਿੱਚ ਬਦਲਦਾ ਹੈ, ਅਤੇ LLM ਦੀ ਵਰਤੋਂ ਟ੍ਰੀ 'ਤੇ ਅਨੁਮਾਨਿਤ ਖੋਜ ਕਰਨ ਲਈ ਕਰਦਾ ਹੈ, FinanceBench ਵਿੱਤੀ ਦਸਤਾਵੇਜ਼ ਪ੍ਰਸ਼ਨ ਅਤੇ ਉੱਤਰ ਬੈਂਚਮਾਰਕ 'ਤੇ 98.7% ਸ਼ੁੱਧਤਾ ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ।

1. ਪਿਛੋਕੜ: ਰਵਾਇਤੀ RAG ਦੇ ਪੰਜ ਦੁੱਖ

RAG ਵੱਡੇ ਮਾਡਲ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਇੱਕ ਅਸਲ ਮਿਆਰ ਬਣ ਗਿਆ ਹੈ। ਮੁੱਖ ਧਾਰਾ ਦੇ ਹੱਲ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ ਪੜਾਅ ਵਿੱਚ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਨਿਸ਼ਚਿਤ ਲੰਬਾਈ ਦੇ ਚੰਕਸ ਵਿੱਚ ਵੰਡਦੇ ਹਨ, ਉਹਨਾਂ ਨੂੰ ਏਮਬੈਡਿੰਗ ਮਾਡਲ ਦੁਆਰਾ ਵੈਕਟਰਾਂ ਵਿੱਚ ਬਦਲਦੇ ਹਨ, ਅਤੇ ਵੈਕਟਰ ਡੇਟਾਬੇਸ ਵਿੱਚ ਸਟੋਰ ਕਰਦੇ ਹਨ; ਪੁੱਛਗਿੱਛ ਕਰਨ ਵੇਲੇ, ਉਹ ਉਪਭੋਗਤਾ ਦੇ ਸਵਾਲ ਦੀ ਵੀ ਏਮਬੈਡਿੰਗ ਕਰਦੇ ਹਨ, ਅਤੇ ਫਿਰ ਵੈਕਟਰ ਸਮਾਨਤਾ ਖੋਜ ਦੁਆਰਾ ਚੋਟੀ ਦੇ-K ਨਤੀਜਿਆਂ ਨੂੰ ਵਾਪਸ ਬੁਲਾਉਂਦੇ ਹਨ, ਅਤੇ ਉਹਨਾਂ ਨੂੰ LLM ਦੇ ਇਨਪੁਟ ਸੰਦਰਭ ਵਜੋਂ ਜੋੜਦੇ ਹਨ।

ਇਹ ਪ੍ਰਕਿਰਿਆ ਛੋਟੇ ਟੈਕਸਟ ਅਤੇ ਆਮ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ, ਪਰ ਪੇਸ਼ੇਵਰ ਲੰਬੇ ਦਸਤਾਵੇਜ਼ਾਂ (ਵਿੱਤੀ ਰਿਪੋਰਟਾਂ, ਕਾਨੂੰਨ ਅਤੇ ਨਿਯਮ, ਤਕਨੀਕੀ ਮੈਨੂਅਲ, ਆਦਿ) ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ, ਇਹ ਪੰਜ ਬੁਨਿਆਦੀ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ:

1) ਸਮਾਨਤਾ ≠ ਸਾਰਥਕਤਾ। ਵੈਕਟਰ ਖੋਜ ਇਹ ਮੰਨਦੀ ਹੈ ਕਿ "ਸਭ ਤੋਂ ਵੱਧ ਅਰਥਾਤਮਕ ਤੌਰ 'ਤੇ ਸਮਾਨ ਟੈਕਸਟ ਬਲਾਕ = ਸਭ ਤੋਂ ਢੁਕਵੇਂ ਜਵਾਬ ਦਾ ਸਰੋਤ", ਪਰ ਪੇਸ਼ੇਵਰ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿੱਚ, ਬਹੁਤ ਸਾਰੇ ਪੈਰੇ ਲਗਭਗ ਸਮਾਨ ਅਰਥਾਂ ਨੂੰ ਸਾਂਝਾ ਕਰਦੇ ਹਨ ਪਰ ਮੁੱਖ ਵੇਰਵਿਆਂ ਵਿੱਚ ਬਹੁਤ ਵੱਡਾ ਅੰਤਰ ਹੁੰਦਾ ਹੈ।

2) ਸਖ਼ਤ ਚੰਕਿੰਗ ਸੰਦਰਭ ਦੀ ਸੰਪੂਰਨਤਾ ਨੂੰ ਨਸ਼ਟ ਕਰ ਦਿੰਦੀ ਹੈ। 512 ਜਾਂ 1024 ਟੋਕਨਾਂ ਦੀ ਇੱਕ ਨਿਸ਼ਚਿਤ ਵਿੰਡੋ ਦੁਆਰਾ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਵੰਡਣਾ ਵਾਕਾਂ, ਪੈਰਿਆਂ ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਪੂਰੇ ਤਰਕ ਭਾਗ ਨੂੰ ਵੀ ਕੱਟ ਦੇਵੇਗਾ, ਜਿਸ ਨਾਲ ਮੁੱਖ ਸੰਦਰਭ ਗੁੰਮ ਹੋ ਜਾਵੇਗਾ।

3) ਪੁੱਛਗਿੱਛ ਦੇ ਇਰਾਦੇ ਅਤੇ ਗਿਆਨ ਸਪੇਸ ਵਿੱਚ ਗਲਤ ਅਲਾਈਨਮੈਂਟ। ਉਪਭੋਗਤਾਵਾਂ ਦੀ ਪੁੱਛਗਿੱਛ "ਇਰਾਦੇ" ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ ਨਾ ਕਿ "ਸਮੱਗਰੀ" ਨੂੰ, ਅਤੇ ਪੁੱਛਗਿੱਛ ਏਮਬੈਡਿੰਗ ਅਤੇ ਦਸਤਾਵੇਜ਼ ਏਮਬੈਡਿੰਗ ਵੱਖ-ਵੱਖ ਅਰਥਾਤਮਕ ਸਪੇਸ ਵਿੱਚ ਹੁੰਦੇ ਹਨ।

4) ਦਸਤਾਵੇਜ਼ ਦੇ ਅੰਦਰ ਹਵਾਲਿਆਂ ਨੂੰ ਸੰਭਾਲਣ ਵਿੱਚ ਅਸਮਰੱਥਾ। ਪੇਸ਼ੇਵਰ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਹਵਾਲੇ ਹੁੰਦੇ ਹਨ ਜਿਵੇਂ ਕਿ "ਵੇਰਵਿਆਂ ਲਈ ਅਨੈਕਸ G ਦੇਖੋ" ਅਤੇ "ਸਾਰਣੀ 5.3 ਵੇਖੋ", ਇਹਨਾਂ ਹਵਾਲਿਆਂ ਅਤੇ ਹਵਾਲਾ ਦਿੱਤੀ ਗਈ ਸਮੱਗਰੀ ਦੇ ਵਿਚਕਾਰ ਕੋਈ ਅਰਥਾਤਮਕ ਸਮਾਨਤਾ ਨਹੀਂ ਹੈ, ਅਤੇ ਵੈਕਟਰ ਖੋਜ ਮੇਲ ਕਰਨ ਵਿੱਚ ਅਸਮਰੱਥ ਹੈ।

5) ਸੁਤੰਤਰ ਪੁੱਛਗਿੱਛ, ਗੱਲਬਾਤ ਦੇ ਇਤਿਹਾਸ ਦੀ ਵਰਤੋਂ ਕਰਨ ਵਿੱਚ ਅਸਮਰੱਥਾ। ਹਰੇਕ ਖੋਜ ਪੁੱਛਗਿੱਛ ਨੂੰ ਇੱਕ ਸੁਤੰਤਰ ਬੇਨਤੀ ਵਜੋਂ ਮੰਨਦੀ ਹੈ, ਅਤੇ ਪਿਛਲੀ ਗੱਲਬਾਤ ਦੇ ਸੰਦਰਭ ਦੇ ਨਾਲ ਹੌਲੀ-ਹੌਲੀ ਖੋਜ ਕਰਨ ਵਿੱਚ ਅਸਮਰੱਥ ਹੈ।

2. PageIndex ਦਾ ਸਮੁੱਚਾ ਆਰਕੀਟੈਕਚਰ

PageIndex ਇੱਕ ਵੈਕਟਰ-ਮੁਕਤ (Vectorless), ਤਰਕ-ਅਧਾਰਿਤ (Reasoning-based) RAG ਫਰੇਮਵਰਕ ਹੈ। ਇਸਦਾ ਮੁੱਖ ਵਿਚਾਰ ਇਹ ਹੈ: ਮਾਡਲ ਨੂੰ ਵੈਕਟਰ ਸਪੇਸ ਵਿੱਚ ਲਗਭਗ ਮੈਚਿੰਗ ਕਰਨ ਦੇਣ ਦੀ ਬਜਾਏ, ਮਾਡਲ ਨੂੰ ਦਸਤਾਵੇਜ਼ ਦੇ ਢਾਂਚਾਗਤ ਪ੍ਰਤੀਨਿਧਤਾ 'ਤੇ ਤਰਕ ਕਰਨ ਦਿਓ - ਇਹ ਫੈਸਲਾ ਕਰੋ ਕਿ "ਕਿੱਥੇ ਦੇਖਣਾ ਹੈ", ਨਾ ਕਿ ਸਿਰਫ਼ "ਕੀ ਸਮਾਨ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ"।

PageIndex ਇੱਕ ਮਨੁੱਖੀ ਮਾਹਿਰ ਦੁਆਰਾ ਲੰਬੇ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਪੜ੍ਹਨ ਦੇ ਤਰੀਕੇ ਦੀ ਨਕਲ ਕਰਦਾ ਹੈ: ਪਹਿਲਾਂ ਸਮੱਗਰੀ ਦੀ ਸਾਰਣੀ ਨੂੰ ਬ੍ਰਾਊਜ਼ ਕਰੋ, ਸਵਾਲ ਦੇ ਅਧਾਰ 'ਤੇ ਸੰਬੰਧਿਤ ਅਧਿਆਵਾਂ ਦਾ ਨਿਰਣਾ ਕਰੋ, ਅਤੇ ਟੀਚੇ ਦੀ ਸਮੱਗਰੀ ਨੂੰ ਲੱਭਣ ਤੱਕ ਹੌਲੀ-ਹੌਲੀ ਡੂੰਘਾਈ ਵਿੱਚ ਜਾਓ। ਇਹ ਪ੍ਰਕਿਰਿਆ ਦੋ ਕਦਮਾਂ ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਕੀਤੀ ਜਾਂਦੀ ਹੈ:

ਇੱਕ ਟ੍ਰੀ ਢਾਂਚਾ ਇੰਡੈਕਸ ਬਣਾਓ: PDF/Markdown ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਇੱਕ ਲੜੀਵਾਰ JSON ਟ੍ਰੀ ਵਿੱਚ ਬਦਲੋ, ਜੋ ਕਿ "LLM ਲਈ ਅਨੁਕੂਲਿਤ ਸਮੱਗਰੀ ਦੀ ਸਾਰਣੀ" ਵਰਗਾ ਹੈ
ਤਰਕ-ਅਧਾਰਿਤ ਟ੍ਰੀ ਖੋਜ: LLM ਸਵਾਲ ਦੇ ਅਧਾਰ 'ਤੇ ਟ੍ਰੀ 'ਤੇ ਤਰਕ ਨੈਵੀਗੇਸ਼ਨ ਕਰਦਾ ਹੈ, ਸੰਬੰਧਿਤ ਨੋਡਾਂ ਨੂੰ ਲੱਭਦਾ ਹੈ, ਸਮੱਗਰੀ ਨੂੰ ਐਕਸਟਰੈਕਟ ਕਰਦਾ ਹੈ ਅਤੇ ਜਵਾਬ ਤਿਆਰ ਕਰਦਾ ਹੈ

3. ਮੁੱਖ ਮੋਡੀਊਲ ਡਿਸਸੈਂਬਲੀ

3.1 PDF ਪ੍ਰੋਸੈਸਿੰਗ ਪਾਈਪਲਾਈਨ

PageIndex ਦੀ PDF ਪ੍ਰੋਸੈਸਿੰਗ ਪਾਈਪਲਾਈਨ tree_parser() ਫੰਕਸ਼ਨ ਦੁਆਰਾ ਵਿਵਸਥਿਤ ਕੀਤੀ ਗਈ ਹੈ, ਅਤੇ ਮੁੱਖ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ: ਡਾਇਰੈਕਟਰੀ ਖੋਜ (ਤਿੰਨ ਮੋਡ ਸ਼ਾਖਾਵਾਂ), ਪੇਸ਼ਕਾਰੀ ਨੂੰ ਪੂਰਕ ਕਰਨਾ, ਫਲੈਟ ਸੂਚੀ ਨੂੰ ਲੜੀਵਾਰ ਟ੍ਰੀ ਵਿੱਚ ਬਦਲਣਾ, ਵੱਡੇ ਨੋਡਾਂ ਨੂੰ ਆਵਰਤੀ ਰੂਪ ਵਿੱਚ ਉਪ-ਵੰਡਣਾ, ਨੋਡਾਂ ਨੂੰ ਭਰਪੂਰ ਕਰਨਾ, ਅਤੇ JSON ਟ੍ਰੀ ਢਾਂਚੇ ਨੂੰ ਆਉਟਪੁੱਟ ਕਰਨਾ।

ਤਿੰਨ ਪ੍ਰੋਸੈਸਿੰਗ ਮੋਡ:

process_toc_with_page_numbers (ਡਾਇਰੈਕਟਰੀ + ਪੰਨਾ ਨੰਬਰ ਦੇ ਨਾਲ): LLM ਦੀ ਵਰਤੋਂ ਅਸਲ ਡਾਇਰੈਕਟਰੀ ਨੂੰ ਢਾਂਚਾਗਤ JSON ਵਿੱਚ ਬਦਲਣ ਲਈ ਕਰੋ, ਅਤੇ ਲਾਜ਼ੀਕਲ ਪੰਨਾ ਨੰਬਰਾਂ ਨੂੰ ਭੌਤਿਕ ਪੰਨਾ ਨੰਬਰਾਂ ਨਾਲ ਮੈਪ ਕਰੋ
process_no_toc (ਕੋਈ ਡਾਇਰੈਕਟਰੀ ਨਹੀਂ): LLM ਦੁਆਰਾ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਮੁੱਖ ਟੈਕਸਟ ਸਮੱਗਰੀ ਤੋਂ ਲੜੀਵਾਰ ਢਾਂਚੇ ਦਾ ਅਨੁਮਾਨ ਲਗਾਇਆ ਜਾਂਦਾ ਹੈ
process_toc_no_page_numbers (ਡਾਇਰੈਕਟਰੀ ਹੈ ਪਰ ਕੋਈ ਪੰਨਾ ਨੰਬਰ ਨਹੀਂ): ਢਾਂਚੇ ਨੂੰ ਐਕਸਟਰੈਕਟ ਕਰੋ ਅਤੇ ਫਿਰ ਭੌਤਿਕ ਪੰਨਾ ਨੰਬਰਾਂ ਨੂੰ ਪੂਰਕ ਕਰਨ ਲਈ ਅਨੁਮਾਨ ਲਗਾਓ

3.2 ਟ੍ਰੀ ਢਾਂਚਾ ਡਾਟਾ ਮਾਡਲ

ਟ੍ਰੀ ਵਿੱਚ ਹਰੇਕ ਨੋਡ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ: title, node_id, start_index, end_index, summary, prefix_summary, text, nodes (ਚਾਈਲਡ ਨੋਡ ਐਰੇ) ਅਤੇ ਹੋਰ ਫੀਲਡ।

3.3 ਅਨੁਮਾਨਿਤ ਖੋਜ ਵਿਧੀ

ਖੋਜ ਪੜਾਅ ਕਿਸੇ ਵੀ ਵੈਕਟਰ ਗਣਨਾ 'ਤੇ ਨਿਰਭਰ ਨਹੀਂ ਕਰਦਾ ਹੈ। LLM ਉਪਭੋਗਤਾ ਦੇ ਸਵਾਲ ਅਤੇ ਦਸਤਾਵੇਜ਼ ਟ੍ਰੀ ਢਾਂਚੇ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਅਤੇ ਨੋਡ ਸਿਰਲੇਖਾਂ ਅਤੇ ਸੰਖੇਪਾਂ ਦੇ ਅਧਾਰ 'ਤੇ ਤਰਕ ਕਰਦਾ ਹੈ, ਅਤੇ ਇਸਦੀ "ਸੋਚਣ ਦੀ ਪ੍ਰਕਿਰਿਆ" ਅਤੇ ਸੰਬੰਧਿਤ node_id ਸੂਚੀ ਨੂੰ ਆਉਟਪੁੱਟ ਕਰਦਾ ਹੈ। ਸਿਸਟਮ ਫਿਰ node_id ਦੇ ਅਨੁਸਾਰ node_map ਤੋਂ ਸੰਬੰਧਿਤ ਨੋਡ ਦੇ ਪੂਰੇ ਟੈਕਸਟ ਨੂੰ ਐਕਸਟਰੈਕਟ ਕਰਦਾ ਹੈ, ਅਤੇ ਇਸਨੂੰ LLM ਨੂੰ ਅੰਤਿਮ ਜਵਾਬ ਤਿਆਰ ਕਰਨ ਲਈ ਸੰਦਰਭ ਵਜੋਂ ਜੋੜਦਾ ਹੈ।

4. ਮੁੱਖ ਡਿਜ਼ਾਈਨ ਹਾਈਲਾਈਟਸ

ਵੈਕਟਰ-ਮੁਕਤ ਆਰਕੀਟੈਕਚਰ: ਏਮਬੈਡਿੰਗ ਮਾਡਲ ਅਤੇ ਵੈਕਟਰ ਡੇਟਾਬੇਸ ਦੀ ਕੋਈ ਲੋੜ ਨਹੀਂ, ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਦੀ ਲਾਗਤ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ ਅਤੇ ਤੈਨਾਤੀ ਨੂੰ ਸਰਲ ਬਣਾਉਂਦਾ ਹੈ
ਦਸਤਾਵੇਜ਼ ਦੇ ਕੁਦਰਤੀ ਢਾਂਚੇ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖੋ: ਦਸਤਾਵੇਜ਼ ਦੇ ਅੰਦਰੂਨੀ ਅਧਿਆਵਾਂ/ਉਪ-ਭਾਗਾਂ/ਉਪ-ਅਧਿਆਵਾਂ ਦੁਆਰਾ ਸਮੱਗਰੀ ਨੂੰ ਵਿਵਸਥਿਤ ਕਰੋ, ਚੰਕ ਦੇ ਵਿਚਕਾਰ ਸੰਦਰਭ ਦੇ ਨੁਕਸਾਨ ਤੋਂ ਬਚੋ
ਖੋਜ ਦੀ ਵਿਆਖਿਆਯੋਗਤਾ: ਹਰੇਕ ਖੋਜ ਇੱਕ ਪੂਰੀ ਤਰਕ ਲੜੀ ਨੂੰ ਵਾਪਸ ਕਰਦੀ ਹੈ, ਜੋ ਕਿ ਉੱਚ ਪਾਲਣਾ ਲੋੜਾਂ ਵਾਲੇ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਇੱਕ ਸਪੱਸ਼ਟ ਫਾਇਦਾ ਹੈ

5. ਮੁਲਾਂਕਣ ਨਤੀਜੇ

Mafin 2.5 PageIndex 'ਤੇ ਅਧਾਰਤ ਇੱਕ ਵਿੱਤੀ ਦਸਤਾਵੇਜ਼ ਪ੍ਰਸ਼ਨ ਅਤੇ ਉੱਤਰ ਸਿਸਟਮ ਹੈ। FinanceBench (ਵਿੱਤੀ ਦਸਤਾਵੇਜ਼ QA ਬੈਂਚਮਾਰਕ ਟੈਸਟ) 'ਤੇ ਇਸਦਾ ਪ੍ਰਦਰਸ਼ਨ 98.7% ਸ਼ੁੱਧਤਾ ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ, ਜੋ ਕਿ Perplexity (45%) ਅਤੇ GPT-4o (31%) ਤੋਂ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ।

6. ਲਾਗੂ ਦ੍ਰਿਸ਼

ਲਈ ਢੁਕਵਾਂ: ਸਪੱਸ਼ਟ ਲੜੀਵਾਰ ਢਾਂਚੇ ਵਾਲੇ ਲੰਬੇ ਦਸਤਾਵੇਜ਼ (ਵਿੱਤੀ ਰਿਪੋਰਟਾਂ, ਕਾਨੂੰਨ ਅਤੇ ਨਿਯਮ, ਪਾਠ ਪੁਸਤਕਾਂ, ਮੈਨੂਅਲ), ਦਰਜਨਾਂ ਤੋਂ ਸੈਂਕੜੇ ਪੰਨਿਆਂ ਦੀ ਲੰਬਾਈ ਵਾਲੇ

ਲਈ ਢੁਕਵਾਂ ਨਹੀਂ: ਬਿਨਾਂ ਢਾਂਚਾਗਤ ਸਮੱਗਰੀ ਵਾਲੇ ਦਸਤਾਵੇਜ਼, OCR ਤੋਂ ਬਿਨਾਂ ਸਕੈਨ ਕੀਤੀਆਂ ਕਾਪੀਆਂ, ਮੁੱਖ ਤੌਰ 'ਤੇ ਟੇਬਲ/ਚਾਰਟ ਵਾਲੇ ਦਸਤਾਵੇਜ਼, ਮਿਲੀਸਕਿੰਟ-ਪੱਧਰ ਦੇ ਰੀਅਲ-ਟਾਈਮ ਜਵਾਬਾਂ ਦੀ ਲੋੜ ਵਾਲੇ ਦ੍ਰਿਸ਼

7. ਸੰਖੇਪ

PageIndex ਦਾ ਮੁੱਖ ਯੋਗਦਾਨ ਇੱਕ ਵਿਹਾਰਕ ਵੈਕਟਰ-ਮੁਕਤ RAG ਪੈਰਾਡਾਈਮ ਦਾ ਪ੍ਰਸਤਾਵ ਕਰਨਾ ਹੈ: ਦਸਤਾਵੇਜ਼ ਦੇ ਕੁਦਰਤੀ ਢਾਂਚੇ ਦੀ ਵਰਤੋਂ ਟ੍ਰੀ ਇੰਡੈਕਸ ਬਣਾਉਣ ਲਈ ਕਰੋ, ਅਤੇ ਵੈਕਟਰ ਸਮਾਨਤਾ ਖੋਜ ਨੂੰ ਬਦਲਣ ਲਈ LLM ਤਰਕ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਇਹ ਹੱਲ ਸਪੱਸ਼ਟ ਲੜੀਵਾਰ ਢਾਂਚੇ ਵਾਲੇ ਪੇਸ਼ੇਵਰ ਲੰਬੇ ਦਸਤਾਵੇਜ਼ਾਂ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਅਤੇ ਵਿਆਖਿਆਯੋਗਤਾ ਅਤੇ ਆਡਿਟਯੋਗਤਾ ਵੀ ਰਵਾਇਤੀ ਹੱਲਾਂ ਨਾਲੋਂ ਕਾਫ਼ੀ ਬਿਹਤਰ ਹੈ।

PageIndex ਦੀ ਡੂੰਘਾਈ ਨਾਲ ਵਿਆਖਿਆ: ਵੈਕਟਰ-ਮੁਕਤ ਤਰਕ-ਅਧਾਰਿਤ RAG, AI ਨੂੰ ਮਨੁੱਖੀ ਮਾਹਿਰ ਵਾਂਗ ਦਸਤਾਵੇਜ਼ ਪੜ੍ਹਨ ਦਿੰਦਾ ਹੈ

1. ਪਿਛੋਕੜ: ਰਵਾਇਤੀ RAG ਦੇ ਪੰਜ ਦੁੱਖ

2. PageIndex ਦਾ ਸਮੁੱਚਾ ਆਰਕੀਟੈਕਚਰ

3. ਮੁੱਖ ਮੋਡੀਊਲ ਡਿਸਸੈਂਬਲੀ

3.1 PDF ਪ੍ਰੋਸੈਸਿੰਗ ਪਾਈਪਲਾਈਨ

3.2 ਟ੍ਰੀ ਢਾਂਚਾ ਡਾਟਾ ਮਾਡਲ

3.3 ਅਨੁਮਾਨਿਤ ਖੋਜ ਵਿਧੀ

4. ਮੁੱਖ ਡਿਜ਼ਾਈਨ ਹਾਈਲਾਈਟਸ

5. ਮੁਲਾਂਕਣ ਨਤੀਜੇ

6. ਲਾਗੂ ਦ੍ਰਿਸ਼

7. ਸੰਖੇਪ

You Might Also Like

Claude Code Buddy ਸੋਧ ਗਾਈਡ: ਕਿਵੇਂ ਚਮਕਦਾਰ ਪੁਰਾਣੀ ਪਾਲਤੂ ਪ੍ਰਾਪਤ ਕਰੀਏ

Obsidian ਨੇ Defuddle ਜਾਰੀ ਕੀਤਾ, Obsidian Web Clipper ਨੂੰ ਇੱਕ ਨਵੇਂ ਉੱਚਾਈ 'ਤੇ ਲੈ ਗਿਆ

OpenAI اچانک "تین میں ایک" کا اعلان کرتا ہے: براؤزر + پروگرامنگ + ChatGPT کا انضمام، اندرونی طور پر تسلیم کیا کہ پچھلے سال غلط راستہ اختیار کیا گیا

2026, ਆਪਣੇ ਆਪ ਨੂੰ "ਆਤਮ-ਨਿਯੰਤਰਣ" ਕਰਨ ਲਈ ਦਬਾਉ ਨਾ ਦਿਓ! ਇਹ 8 ਛੋਟੇ ਕੰਮ ਕਰੋ, ਸਿਹਤ ਆਪ ਹੀ ਆਏਗੀ

ਉਹ ਮਾਂਵਾਂ ਜੋ ਵਜ਼ਨ ਘਟਾਉਣ ਲਈ ਕੋਸ਼ਿਸ਼ ਕਰਦੀਆਂ ਹਨ, ਪਰ ਫਿਰ ਵੀ ਘਟ ਨਹੀਂ ਪਾਉਂਦੀਆਂ, ਇਹਨਾਂ ਨੂੰ ਇੱਥੇ ਹੀ ਫਸਣਾ ਪੈਂਦਾ ਹੈ

AI Browser 24 ਘੰਟੇ ਸਥਿਰ ਚਾਲੂ ਰੱਖਣ ਦੀ ਗਾਈਡ