Skip to main content
QUICK REVIEW

[論文レビュー] Revolutionizing Retrieval-Augmented Generation with Enhanced PDF Structure Recognition

Demiao Lin|arXiv (Cornell University)|Jan 23, 2024
Topic Modeling被引用数 8
ひとこと要約

本論文は、ディープラーニングベースのPDFパーサー(ChatDOC)がルールベースの基準手法(PyPDF)よりRAGの性能を向上させ、特に複雑な表や読み順に対して有効であり、188件の実世界ドキュメントにおいて示している。

ABSTRACT

With the rapid development of Large Language Models (LLMs), Retrieval-Augmented Generation (RAG) has become a predominant method in the field of professional knowledge-based question answering. Presently, major foundation model companies have opened up Embedding and Chat API interfaces, and frameworks like LangChain have already integrated the RAG process. It appears that the key models and steps in RAG have been resolved, leading to the question: are professional knowledge QA systems now approaching perfection? This article discovers that current primary methods depend on the premise of accessing high-quality text corpora. However, since professional documents are mainly stored in PDFs, the low accuracy of PDF parsing significantly impacts the effectiveness of professional knowledge-based QA. We conducted an empirical RAG experiment across hundreds of questions from the corresponding real-world professional documents. The results show that, ChatDOC, a RAG system equipped with a panoptic and pinpoint PDF parser, retrieves more accurate and complete segments, and thus better answers. Empirical experiments show that ChatDOC is superior to baseline on nearly 47% of questions, ties for 38% of cases, and falls short on only 15% of cases. It shows that we may revolutionize RAG with enhanced PDF structure recognition.

研究の動機と目的

  • PDF parsing quality が専門文書の RAG にどう影響するかを示す。
  • rule-based と新規の deep learning–based PDF parsing を RAG パイプラインで比較する。
  • 構造認識に基づくパーシングが、より正確で完全な検索結果をもたらすことを示す。
  • 実世界の文書とケーススタディでの実践的影響を評価する。

提案手法

  • 二つのRAGシステムを比較:ChatDOC with ChatDOC PDF Parser vs. Baseline with PyPDF and RecursiveCharacterTextSplitter.
  • ChatDOC はOCR、ドキュメントオブジェクト検出、列間横断/ページ横断のトリミング、読み順、表/構造認識を用いたDLベースのパースを使用。
  • チャンクは約300トークン程度までのコンテンツブロックから形成され、検索単位における構造(表、見出し)を保持。
  • Embeddings は text-embedding-ada-002 を使用;検索は ≤3000 tokens に制限;QA は GPT-3.5-Turbo。
  • データセットは 188 文書(100 academic papers、28 financial reports、60 others)で、評価には 302 質問を使用。

実験結果

リサーチクエスチョン

  • RQ1PDF parsing と chunking の品質は専門文書の RAG の回答品質に影響するか?
  • RQ2深層学習ベースのパーサーは、PDF に対する RAG で rule-based パーサーを上回るか?
  • RQ3パースエラーは抽出型と総合的分析質問にどのように影響するか?
  • RQ4DLベースのパーサーの RAG 文脈での実用的な失敗モードと限界は?

主な発見

  • ChatDOC は extractive questions の 47% で Baseline を上回り、42% で同点、Baseline は 9% 勝利(86 問題全体)。
  • comprehensive questions において、ChatDOC は Baseline を 47% 上回り、同点は 37%、Baseline は 17%(216 問題)。
  • 全体として、ChatDOC は 302 問題中 143 勝、Baseline は 44 勝、115 が同点。
  • ケーススタディは表の取り扱いの改善、読み順の正確さ、全表の検索取得を実証し、LLM の理解を高める。
  • 制限として、ランキング/トークン窓の問題やタイトルの誤分割の可能性があり、埋め込みのランキングと分割の改善余地を示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。