Skip to main content
QUICK REVIEW

[논문 리뷰] Corpus Conversion Service: A machine learning platform to ingest documents at scale [Poster abstract]

Peter Staar, Michele Dolfi|arXiv (Cornell University)|2018. 01. 01.
Scientific Computing and Data Management참고 문헌 6인용 수 1
한 줄 요약

이 논문은 인간 레이아웃 레이블링 데이터를 기반으로 훈련된 모델을 사용하는 규칙 기반 히وري스틱 대신, PDF 문서를 대규모로 구조화된 데이터로 변환하는 클라우드 기반 기계학습 플랫폼인 코퍼스 컨버전 서비스(CCS)를 제시한다. 딥러닝 및 랜덤 포레스트 모델을 사용하여 표식별에서 97% 이상의 정밀도와 재현율을 달성하고, 제목 및 저자와 같은 핵심 문서 요소에 대해 99% 이상의 F1 스코어를 기록한다.

ABSTRACT

Over the past few decades, the amount of scientific articles and technical literature has increased exponentially in size. Consequently, there is a great need for systems that can ingest these documents at scale and make their content discoverable. Unfortunately, both the format of these documents (e.g. the PDF format or bitmap images) as well as the presentation of the data (e.g. complex tables) make the extraction of qualitative and quantitive data extremely challenging. We present a platform to ingest documents at scale which is powered by Machine Learning techniques and allows the user to train custom models on document collections. We show precision/recall results greater than 97% with regard to conversion to structured formats, as well as scaling evidence for each of the microservices constituting the platform.

연구 동기 및 목표

  • 장기적으로 비구조화된 PDF를 대규모로 구조화된 데이터로 변환하는 데 도전하는 문제를 해결하기 위해.
  • 지속적인 수동 튜닝이 필요한 규칙 기반 시스템의 한계를 극복하기 위해.
  • 인간 레이블링 기반의 참조 데이터를 기반으로 훈련된 기계학습을 통해 자동화되고 확장 가능한 문서 수집을 가능하게 하기 위해.
  • 레이아웃 요소를 시각적이고 색상 기반으로 레이블링하여 레이블링 작업의 노력 감소를 위해.
  • 하이브리드 딥러닝 및 앙상블 모델을 사용하여 레이아웃 의미 분류의 정확도를 향상시키기 위해.

제안 방법

  • 플랫폼은 문서 파이프라인을 처리하기 위한 마이크로서비스 아키텍처를 사용한다: 파싱, 모델 추론, 어셈블리, 레이블링, 훈련.
  • 각 PDF 페이지는 경계 상자와 콘텐츠를 가진 텍스트 스니펫인 셀로 파싱되며, 이는 기계학습 모델의 입력으로 사용된다.
  • 레이아웃 의미(예: 제목, 표, 텍스트)는 객체 검출을 위한 딥 네트워크(Faster R-CNN, YOLOv2)와 템플릿 전용 분류를 위한 랜덤 포레스트 모델을 사용하여 예측된다.
  • 각 레이블에 색상이 할당된 시각적 인터페이스를 통해 레이블링이 수집되며, 이는 인간의 레이블링 시간을 크게 감소시킨다.
  • 기하학적 및 스타일 특징(위치, 크기, 폰트 스타일, 이웃 요소와의 거리)은 사용자 정의 랜덤 포레스트 모델의 입력 특징으로 사용된다.
  • 새로운 레이블링을 기반으로 훈련된 모델이 반복적으로 재훈련되어 특정 문서 템플릿에서의 지속적인 향상이 가능하다.

실험 결과

연구 질문

  • RQ1기계학습 기반 접근 방식이 대규모 PDF 문서 변환에서 규칙 기반 시스템을 능가할 수 있는가?
  • RQ2레이아웃 의미 모델 훈련을 위한 인간 레이블링을 어떻게 효율적이고 확장 가능하게 만들 수 있는가?
  • RQ3딥러닝 모델이 표와 같은 복잡한 레이아웃 요소를 높은 정밀도와 재현율로 감지할 수 있는 정도는 어느 정도인가?
  • RQ4템플릿 전용 모델이 과학 저널과 같은 구조화된 문서의 정확도를 향상시킬 수 있는가?
  • RQ5딥러닝 예측 결과와 기하학적 특징을 조합함으로써 분류 성능가 향상되는가?

주요 결과

  • 템플릿 전용 모델을 사용하여 Physical Review B 데이터셋에서 제목 검출에 대해 97.40%의 정밀도와 100%의 재현율을 달성했다.
  • 표 검출에 대해 시스템은 99.24%의 정밀도와 99.97%의 재현율을 기록하여 복잡한 레이아웃 요소를 고도로 신뢰성 있게 식별함을 입증했다.
  • 5,000페이지의 테스트 세트에서 Faster R-CNN 및 YOLOv2 모델 모두 표 검출에 대해 97% 이상의 정밀도와 재현율을 달성했다.
  • 색상 기반 시각적 인터페이스 덕분에 인간 레이블링 속도가 분당 30페이지로 증가하여 노력이 최소 한 단계 이상 감소했다.
  • 딥러닝 예측 결과를 특징으로 사용하는 하이브리드 모델이 단독 모델보다 핵심 문서 요소의 분류 정확도를 향상시켰다.
  • 마이크로서비스 아키텍처 덕분에 선형 확장이 가능했으며, 가상 머신 수에 비례해 처리 속도가 증가했고, 솔루션 소요 시간은 일정하게 유지되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.