QUICK REVIEW

[논문 리뷰] MinerU: An Open-Source Solution for Precise Document Content Extraction

Bin Wang, Chao Xu|arXiv (Cornell University)|2024. 09. 27.

Natural Language Processing Techniques인용 수 10

한 줄 요약

MinerU는 대상 전처리 및 후처리를 통해 다양한 문서 유형에서 콘텐츠를 강인하게 추출하기 위해 PDF-Extract-Kit를 사용하는 오픈 소스의 올인원 문서 콘텐츠 추출 도구입니다.

ABSTRACT

Document content analysis has been a crucial research area in computer vision. Despite significant advancements in methods such as OCR, layout detection, and formula recognition, existing open-source solutions struggle to consistently deliver high-quality content extraction due to the diversity in document types and content. To address these challenges, we present MinerU, an open-source solution for high-precision document content extraction. MinerU leverages the sophisticated PDF-Extract-Kit models to extract content from diverse documents effectively and employs finely-tuned preprocessing and postprocessing rules to ensure the accuracy of the final results. Experimental results demonstrate that MinerU consistently achieves high performance across various document types, significantly enhancing the quality and consistency of content extraction. The MinerU open-source project is available at https://github.com/opendatalab/MinerU.

연구 동기 및 목표

다양한 문서 유형의 고품질 콘텐츠 추출을 촉진하여 LLM 학습 및 검색 강화 생성(RAG) 데이터 품질을 지원합니다.
유니파이드 프레임워크에서 레이아웃, 수식, 표, OCR를 처리하는 올인원 추출 파이프라인 개발.
교과서, 시험지, 논문, 보고서 등 다양한 실제 데이터로 견고성을 향상시키기 위해 다양하고 실제적인 학습 데이터를 활용합니다.
구성 가능한 출력 형식(Markdown/JSON) 및 콘텐츠 필터링을 제공하여 사용성 및 다운스트림 처리를 향상시킵니다.

제안 방법

레이아웃 탐지, 수식 탐지, 표 인식, 수식 인식, OCR에 대한 레이아웃 탐지 모델 등 PDF-Extract-Kit 모델을 활용한 다중 모듈 문서 구문 분석 전략 채택.
교차 문서 일반화 향상을 위해 반복적 데이터 샘플링 및 모델 개선이 포함된 다양한 데이터 중심의 레이아웃 탐지 학습 구현.
일부 수식 인식 모델(YOLO 기반)을 개발하여 인라인 및 표시된 수식을 구분하고 무시 클래스(ingnore class)를 도입.
UniMERNet을 사용해 UniMER-1M으로 학습된 견고한 수식 인식 모델을 개발하여 다양한 유형의 수식을 처리.
경계 상자 중첩을 해결하고 정확한 텍스트 순서를 위한 인간 읽기 순서를 기반으로 한 세그먼트를 도출하는 후처리 단계를 통합.
중간 구조화 표현을 통해 콘텐츠 블록 및 메타데이터를 보존하는 포맷 변환을 Markdown 및 사용자 정의 JSON으로 제공합니다.

실험 결과

연구 질문

RQ1다양한 문서 유형(논문, 교과서, 시험지, 보고서)에서 과도한 추론 비용 없이 고정밀도 콘텐츠 추출을 달성하려면 MinerU는 어떻게 작동해야 하는가?
RQ2레이아웃 탐지, 수식/표 인식, OCR 등 모델 구성요소와 후처리 규칙의 조합이 엔드 투 엔드 추출 결과를 어떻게 견고하게 만들어 주는가?
RQ3다양한 학습 데이터에 대한 데이터 엔지니어링 접근 방식이 단일 도메인 오픈 소스 모델보다 일반화를 개선하는가?
RQ4후처리가 읽기 순서를 보존하고 다운스트림 작업을 위한 노이즈 제거에 얼마나 효과적인가?
RQ5출력 형식 중 어떤 것이 다운스트림 NLP/IR 작업에 가장 적합하면서 원본 문서에 대한 충실도를 유지하는가?

주요 결과

MinerU는 다양한 문서 유형에 걸쳐 일관되게 고품질 추출 결과를 제공한다.
이 프레임워크는 모델 기반의 영역 탐지와 규칙 기반 후처리를 결합하여 단락 연결 및 읽기 순서를 정확하게 보장한다.
레이아웃 및 수식 탐지 모델은 다양한 실제 데이터로 학습되어 학术 논문 및 교과서에서 여러 오픈 소스 베이스라인보다 우수하다.
UniMERNet으로 수식 인식은 다양한 수식 유형에서 Mathpix 같은 상용 도구와 비교해도 경쟁력 있는 성능을 달성한다.
OCR은 읽기 순서를 보존하기 위해 영역별로 수행되며 인식 도중 마스킹 후 수식은 재통합된다.
시스템은 Markdown 또는 JSON으로 출력되며, 다운스트림 사용을 위해 콘텐츠 블록 및 메타데이터를 보존하는 중간 구조를 갖는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.