Skip to main content
QUICK REVIEW

[논문 리뷰] Document Domain Randomization for Deep Learning Document Layout Extraction

Meng Ling, Jian Chen|arXiv (Cornell University)|2021. 05. 20.
Handwritten Text Recognition Techniques참고 문헌 41인용 수 4
한 줄 요약

이 논문은 학술 논문의 문서 레이아웃 추출을 위한 딥 컨볼루션 네트워크(CNN)를 훈련시키기 위해 랜덤라이즈된 레이아웃, 폰트, 콘텐츠를 가진 합성 문서 페이지를 생성하는 Document Domain Randomization(DDR)을 소개한다. DDR는 9개의 의미적 클래스를 포함한 실제 벤치마크(CS-150, ACL300, VIS300)에서 경쟁 가능한 성능을 달성하며, 레이블 노이즈에 대한 강건성과 훈련 데이터 감소에 대비하여 고비용 수동 주석 작업이 필요 없음을 입증한다.

ABSTRACT

We present document domain randomization (DDR), the first successful transfer of convolutional neural networks (CNNs) trained only on graphically rendered pseudo-paper pages to real-world document segmentation. DDR renders pseudo-document pages by modeling randomized textual and non-textual contents of interest, with user-defined layout and font styles to support joint learning of fine-grained classes. We demonstrate competitive results using our DDR approach to extract nine document classes from the benchmark CS-150 and papers published in two domains, namely annual meetings of Association for Computational Linguistics (ACL) and IEEE Visualization (VIS). We compare DDR to conditions of style mismatch, fewer or more noisy samples that are more easily obtained in the real world. We show that high-fidelity semantic information is not necessary to label semantic classes but style mismatch between train and test can lower model accuracy. Using smaller training samples had a slightly detrimental effect. Finally, network models still achieved high test accuracy when correct labels are diluted towards confusing labels; this behavior hold across several classes.

연구 동기 및 목표

  • 학술 논문의 문서 레이아웃 세그멘테이션을 위한 고비용 및 희소한 주석 훈련 데이터 문제를 해결하기 위해.
  • 실제 세계의 문서 다양성을 모방하는 합성 훈련 데이터를 생성함으로써 수동 주석 작업에 대한 의존도를 줄이기 위해.
  • 스타일 불일치, 데이터 감소, 레이블 노이즈 조건 하에서 합성 데이터로 훈련된 CNN 모델의 강건성 평가를 위해.
  • 효과적인 레이아웃 학습을 위해 고해상도 의미적 콘텐츠가 필수적인 것은 아니지만, 스타일 다양성이 일반화에 있어 핵심임을 입증하기 위해.
  • 사람이 주석을 달지 않은 실제 데이터가 없는 문서 레이아웃 작업을 위한 확장 가능한 자동화된 파이프라인을 구축하기 위해.

제안 방법

  • DDR는 열 너비, 폰트 스타일/크기, 텍스트 길이, 그림/표 위치 등의 랜덤라이즈된 레이아웃 파라미터를 사용하여 합성 문서 페이지를 생성한다.
  • 실제 문서의 다양성을 시뮬레이션하기 위해 텍스트 및 비텍스트 요소(예: 그림, 수식, 캡션)의 제약 있는 랜덤라이제이션을 사용한다.
  • 훈련 데이터는 100% 정확한 지도 라벨(바운딩 박스)을 포함하여 인간 주석 없이도 정밀한 지도 학습이 가능하다.
  • 이 방법은 추상, 알고리즘, 저자, 본문, 캡션, 수식, 그림, 표, 제목 등 9개의 세분화된 문서 클래스를 동시에 학습할 수 있다.
  • 그래픽 페이지 생성기가 랜덤 조합의 폰트 스타일, 텍스트 콘텐츠, 구조적 구성 요소를 사용하여 실제 세계의 스타일 분포를 커버한다.
  • 로봇공학 및 컴퓨터 비전 분야의 도메인 랜덤라이제이션에 영감을 받았지만, 문서 레이아웃 이해에 특화되어 적응된 방법이다.

실험 결과

연구 질문

  • RQ1도메인 랜덤라이제이션을 통해 생성된 합성 문서 페이지가 실제 세계의 문서 레이아웃 세그멘테이션 작업에서 경쟁 가능한 성능을 달성할 수 있는가?
  • RQ2합성 훈련 데이터의 스타일 다양성이 스타일 일치 또는 저변동 데이터에 비해 모델의 일반화 능력을 향상시키는가?
  • RQ3훈련 데이터가 원래 크기의 6.25%로 감소할 경우 모델 성능은 어떻게 저하되는가?
  • RQ4특히 1–10% 레이블 노이즈 수준에서 CNN 모델은 노이즈 레이블에 얼마나 강건한가?
  • RQ5저품질의 의미적 콘텐츠를 가진 합성 데이터로 훈련된 모델도 여전히 실제 문서 레이아웃에서 높은 정확도를 달성할 수 있는가?

주요 결과

  • DDR는 CS-150, ACL300, VIS300 벤치마크에서 경쟁 가능한 성능을 달성하여 실제 세계의 문서 레이아웃에 대한 강력한 일반화 능력을 입증했다.
  • 훈련 데이터 감소에 따라 모델 정확도가 비례적으로 감소했으며, 샘플을 반으로 줄였을 때 6.25%(938페이지)로 감소한 상태에서도 모든 클래스에서 일관되게 떨어졌다.
  • 10% 레이블 노이즈 조건에서도 핵심 클래스에 대해 80% 이상의 정확도를 유지하여 인간 주석 오류에 대한 강건성을 입증했다.
  • 레이블 노이즈가 추상, 본문, 수식, 그림 검출에 덜 영향을 주어 유사 클래스 간 혼동에 대한 모델의 내성 강도를 보였다.
  • 정확한 레이아웃 세그멘테이션을 위해 고해상도 의미적 콘텐츠가 필수적인 것은 아니며, 스타일 다양성이 의미적 현실성보다 더 중요하다는 것을 입증했다.
  • 이 방법은 합성 훈련 데이터와 실제 테스트 데이터 사이의 현실 격차를 성공적으로 해소하여 실제 주석 없이도 높은 정확도의 추론을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.