QUICK REVIEW

[论文解读] MinerU: An Open-Source Solution for Precise Document Content Extraction

Bin Wang, Chao Xu|arXiv (Cornell University)|Sep 27, 2024

Natural Language Processing Techniques被引用 10

一句话总结

MinerU 是一个开源的一体化文档内容提取工具，使用 PDF-Extract-Kit 结合定向预处理和后处理，能够稳健地从多种文档类型提取内容。

ABSTRACT

Document content analysis has been a crucial research area in computer vision. Despite significant advancements in methods such as OCR, layout detection, and formula recognition, existing open-source solutions struggle to consistently deliver high-quality content extraction due to the diversity in document types and content. To address these challenges, we present MinerU, an open-source solution for high-precision document content extraction. MinerU leverages the sophisticated PDF-Extract-Kit models to extract content from diverse documents effectively and employs finely-tuned preprocessing and postprocessing rules to ensure the accuracy of the final results. Experimental results demonstrate that MinerU consistently achieves high performance across various document types, significantly enhancing the quality and consistency of content extraction. The MinerU open-source project is available at https://github.com/opendatalab/MinerU.

研究动机与目标

促使对多样化文档类型进行高质量内容提取，以支持用于 LLM 训练和检索增强生成（RAG）的数据质量。
在一个统一框架内开发一个一体化的提取管线，处理布局、公式、表格和 OCR。
利用多样化的、真实世界的训练数据以提升在教材、考试、论文和报告等场景中的鲁棒性。
提供可配置的输出格式（Markdown/JSON）和内容过滤，以提升可用性和下游处理。

提出的方法

采用多模块文档解析策略，使用 PDF-Extract-Kit 模型进行布局检测、公式检测、表格识别、公式识别和 OCR。
通过迭代数据采样和模型精炼，实施多样化的数据驱动布局检测训练，以提升跨文档的泛化能力。
开发一个专用的公式检测模型（基于 YOLO），以区分行内公式和展示公式，并包含一个忽略类别。
使用 UniMERNet 进行健壮的公式识别，基于 UniMER-1M 的训练，以处理多样化的公式类型。
集成后处理阶段，解决边界框重叠并基于人类阅读顺序推导分割，以实现文本的准确排序。
通过一个中间结构化表示将内容转换为 Markdown 和自定义 JSON，同时保留内容块和元数据。

实验结果

研究问题

RQ1在不产生过高推理成本的前提下，MinerU 如何在多种文档类型（论文、教材、考试、报告）实现高精度内容提取？
RQ2哪些模型组件的组合（布局检测、公式/表格识别、OCR）与后处理规则能够产生稳健的端到端提取结果？
RQ3将数据工程方法应用于多样化训练数据是否能提升对单一领域开源模型的泛化能力？
RQ4后处理在保留阅读顺序和消除噪声以用于下游任务方面有多有效？
RQ5哪些输出格式在保留对原始文档的忠实度的同时，最有利于下游 NLP/IR 任务？

主要发现

MinerU 在多种文档类型上始终提供高质量的提取结果。
该框架将基于模型的区域检测与基于规则的后处理相结合，以确保段落拼接的准确性和阅读顺序。
在多样化真实世界数据上进行训练的布局和公式检测模型，在学术论文和教材上优于若干开源基线。
使用 UniMERNet 的公式识别在多样化的公式类型上，与商业工具如 Mathpix 相当。
OCR 是按区域进行以保持阅读顺序，识别时在掩码后重新整合公式。
该系统输出为 Markdown 或 JSON，带有保留内容块和元数据的中间结构，便于下游使用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。