QUICK REVIEW

[論文レビュー] MinerU: An Open-Source Solution for Precise Document Content Extraction

Bin Wang, Chao Xu|arXiv (Cornell University)|Sep 27, 2024

Natural Language Processing Techniques被引用数 10

ひとこと要約

MinerU は、PDF-Extract-Kit を対象の前処理と後処理と組み合わせて使用するオープンソースのオールインワン文書コンテンツ抽出ツールで、さまざまな文書タイプからのコンテンツを堅牢に抽出します。

ABSTRACT

Document content analysis has been a crucial research area in computer vision. Despite significant advancements in methods such as OCR, layout detection, and formula recognition, existing open-source solutions struggle to consistently deliver high-quality content extraction due to the diversity in document types and content. To address these challenges, we present MinerU, an open-source solution for high-precision document content extraction. MinerU leverages the sophisticated PDF-Extract-Kit models to extract content from diverse documents effectively and employs finely-tuned preprocessing and postprocessing rules to ensure the accuracy of the final results. Experimental results demonstrate that MinerU consistently achieves high performance across various document types, significantly enhancing the quality and consistency of content extraction. The MinerU open-source project is available at https://github.com/opendatalab/MinerU.

研究の動機と目的

多様な文書タイプに対して高品質なコンテンツ抽出を動機づけ、LLM 訓練と retrieval-augmented generation (RAG) のデータ品質を支援する。
レイアウト、式、表、OCR を統一フレームワーク内で扱うオールインワン抽出パイプラインを開発する。
教科書、試験、論文、レポートなどの実世界データを多様に活用して堅牢性を向上させる。
使いやすさと下流処理を強化するために、構成可能な出力形式（Markdown/JSON）とコンテンツフィルタリングを提供する。

提案手法

PDF-Extract-Kit モデルを用いたレイアウト検出、式検出、表認識、式認識、OCR を含む多モジュールの文書解析戦略を採用する。
反復的なデータサンプリングとモデル改良を伴う多様なデータ駆動のレイアウト検出訓練を実施し、文書間の一般化を向上させる。
インライン式と表示式を区別する ignore クラスを含む YOLO ベースの式検出モデルを開発する。
さまざまな式タイプに対応する UniMER-1M で訓練された堅牢な式認識のための UniMERNet を使用する。
認識時のバウンディングボックスの重なりを解消し、読み取り順序に基づくセグメンテーションを導出する後処理段階を統合して、正確なテキスト順序を確保する。
中間の構造化表現を介して Markdown やカスタム JSON へのフォーマット変換を提供し、コンテンツブロックとメタデータを保持する。

実験結果

リサーチクエスチョン

RQ1MinerU は多様な文書タイプ（論文、教科書、試験、レポート）に対して過度な推論コストをかけずに高精度なコンテンツ抽出を達成できるか？
RQ2レイアウト検出、式/表認識、OCR などのモデルコンポーネントと後処理ルールの組み合わせが、堅牢なエンドツーエンドの抽出結果を生み出すのか？
RQ3多様な訓練データを用いたデータエンジニアリングアプローチは、単一ドメインのオープンソースモデルより一般化能力を向上させるか？
RQ4下流タスクのための読み順を保持しノイズを除去する後処理の効果はどの程度か？
RQ5下流の NLP/IR タスクに最も適した出力形式は、元の文書への忠実度を保ちつつどのように役立つか？

主な発見

MinerU は多様な文書タイプに対して一貫して高品質の抽出結果を提供する。
フレームワークはモデルベースの領域検出とルールベースの後処理を組み合わせ、段落の継ぎ目と読み順を正確に保つ。
多様な実世界データで訓練されたレイアウトと式検出モデルは、学術論文と教科書で複数のオープンソースのベースラインよりも優れている。
UniMERNet を用いた式認識は、Mathpix などの商用ツールと比較して、多様な式タイプにおいて競争力のある性能を達成している。
OCR は読み順を保つために領域ごとに実行され、式は認識時のマスキング後に再統合される。
システムは Markdown または JSON で出力され、中間の構造がコンテンツブロックとメタデータを下流で利用するために保持される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。