Skip to main content
QUICK REVIEW

[논문 리뷰] PubLayNet: largest dataset ever for document layout analysis

Zhong Xu, Jianbin Tang|arXiv (Cornell University)|2019. 08. 16.
Handwritten Text Recognition Techniques참고 문헌 21인용 수 39
한 줄 요약

PubLayNet은 자동으로 100만 개가 넘는 PubMed Central PDF를 주석 처리하여 대규모 문서 레이아웃 데이터셋을 생성하고, PubLayNet에서 학습된 최첨단 객체 탐지기는 높은 레이아웃 MAP를 달성하며 다른 도메인으로의 효과적인 전달 학습을 가능하게 합니다.

ABSTRACT

Recognizing the layout of unstructured digital documents is an important step when parsing the documents into structured machine-readable format for downstream applications. Deep neural networks that are developed for computer vision have been proven to be an effective method to analyze layout of document images. However, document layout datasets that are currently publicly available are several magnitudes smaller than established computing vision datasets. Models have to be trained by transfer learning from a base model that is pre-trained on a traditional computer vision dataset. In this paper, we develop the PubLayNet dataset for document layout analysis by automatically matching the XML representations and the content of over 1 million PDF articles that are publicly available on PubMed Central. The size of the dataset is comparable to established computer vision datasets, containing over 360 thousand document images, where typical document layout elements are annotated. The experiments demonstrate that deep neural networks trained on PubLayNet accurately recognize the layout of scientific articles. The pre-trained models are also a more effective base mode for transfer learning on a different document domain. We release the dataset (https://github.com/ibm-aur-nlp/PubLayNet) to support development and evaluation of more advanced models for document layout analysis.

연구 동기 및 목표

  • PubMed Central PDF와 그 XML 표현으로부터 대규모의 고품질 주석이 달린 문서 레이아웃 데이터셋을 자동으로 생성합니다.
  • PubLayNet에서 과학 기사 레이아웃 이해를 위한 심층 객체 검출 방법을 평가합니다.
  • PubLayNet에서 다른 문서 도메인으로의 전달 학습 이점을 평가하고 ImageNet/COCO 사전 학습과 비교합니다.

제안 방법

  • PubMed Central Open Access의 XML 주석과 PDF 레이아웃 요소를 자동으로 정렬해 요소별 레이아웃 라벨을 생성합니다.
  • PDF에서 텍스트, 제목, 목록, 표, 그림을 PDFMiner 기반 추출 및 XML 안내 라벨링으로 분할합니다.
  • Detectron을 사용하여 PubLayNet에서 ResNeXt-101 백본으로 Faster-RCNN 및 Mask-RCNN 모델을 학습합니다; MAP@IOU [0.50:0.95]로 평가합니다.
  • 저널 수준에서 데이터를 학습/개발/테스트로 분할해 템플릿 다양성을 최대화하고 일반화 성능을 평가합니다.

실험 결과

연구 질문

  • RQ1표준 객체 감지기(Faster-RCNN, Mask-RCNN)가 PubLayNet에서 문서 레이아웃 카테고리를 얼마나 잘 학습할 수 있나요?
  • RQ2PubLayNet에서의 사전 학습이 다른 도메인(예: SPD 건강보험 문서)으로의 전이가 ImageNet/COCO 사전 학습보다 더 나은 초기화를 제공합니까?
  • RQ3제한된 미세 조정 데이터로 표 탐지 작업 및 관련 레이아웃 문제에서 경쟁력 있는 성능을 PubLayNet이 가능하게 할 수 있나요?

주요 결과

카테고리모델Dev MAPTest MAP
TextF-RCNN0.9100.913
TextM-RCNN0.9160.917
TitleF-RCNN0.8260.812
TitleM-RCNN0.8400.828
ListF-RCNN0.8830.885
ListM-RCNN0.8860.887
TableF-RCNN0.9540.943
TableM-RCNN0.9600.947
FigureF-RCNN0.9370.945
FigureM-RCNN0.9490.955
Macro AvgF-RCNN0.9020.900
Macro AvgM-RCNN0.9100.907
  • Faster-RCNN과 Mask-RCNN은 PubLayNet에서 MAP@IOU [0.50:0.95]가 개발 세트와 테스트 세트에서 평균 0.90 초과의 높은 레이아웃 탐지 성능을 달성합니다.
  • Mask-RCNN은 일반적으로 Text, Title, List, Table, Figure 카테고리에서 Faster-RCNN보다 약간 더 나은 성능을 보입니다.
  • 표와 그림 탐지는 규칙적인 형태와 구별성으로 인해 텍스트, 제목, 목록 탐지보다 더 정확합니다.
  • PubLayNet에서 사전 학습된 모델을 미세 조정하면 아주 적은 미세 조정 데이터(170페이지 정도)로 ICDAR 2013 표 인식에서 최첨단 결과를 달성합니다.
  • 제로샷 PubLayNet 사전 학습은 SPD 문서 레이아웃에서 미세 조정된 PubLayNet이나 COCO/ImageNet 사전 학습보다 더 낮은 성능을 보이며, PubLayNet의 도메인 전이 이점을 강조합니다.
  • PubLayNet은 비생물학적 도메인으로의 효과적인 전달 학습을 가능하게 하지만 이익은 도메인에 의존적이며(표의 전이가 더 어려움).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.