QUICK REVIEW

[논문 리뷰] Table understanding in structured documents

Martin Holeček, Antonín Hoskovec|arXiv (Cornell University)|2019. 03. 22.

Handwritten Text Recognition Techniques참고 문헌 35인용 수 34

한 줄 요약

이 논문은 인voices와 같은 레이아웃이 복잡한 비즈니스 문서에서 엔드 투 엔드 테이블 검출 및 구조화된 정보 추출을 위한 새로운 그래프 기반 신경망 모델을 제안한다. 테이블 검출을 위치 임베딩, 텍스트 특징 및 그래프 컨볼루션을 사용한 워드박스 레이블링 문제로 간주한다. 모델은 라인아이템 테이블 검출에서 93%의 F1을 달성하고, 35개의 다른 구조화된 필드에서 66%의 마이크로-F1을 기록하여 다양한 인보이스 레이아웃과 유형에서 강력한 일반화 능력을 입증한다.

ABSTRACT

Abstract--- Table detection and extraction has been studied in the context of documents like reports, where tables are clearly outlined and stand out from the document structure visually. We study this topic in a rather more challenging domain of layout-heavy business documents, particularly invoices. Invoices present the novel challenges of tables being often without outlines - either in the form of borders or surrounding text flow - with ragged columns and widely varying data content. We will also show, that we can extract specific information from structurally different tables or table-like structures with one model. We present a comprehensive representation of a page using graph over word boxes, positional embeddings, trainable textual features and rephrase the table detection as a text box labeling problem. We will work on our newly presented dataset of pro forma invoices, invoices and debit note documents using this representation and propose multiple baselines to solve this labeling problem. We then propose a novel neural network model that achieves strong, practical results on the presented dataset and analyze the model performance and effects of graph convolutions and self-attention in detail.

연구 동기 및 목표

테이블이 테두리가 없고 열이 불규칙한 경우가 많은, 레이아웃이 복잡한 비즈니스 문서에서 구조화된 정보를 검출하고 추출하는 문제를 해결하기 위해.
수동적인 레이아웃 설정 없이도 다양한 인보이스 레이아웃, 언어 및 형식에 일반화할 수 있는 완전히 학습 가능한 엔드 투 엔드 시스템을 개발하기 위해.
통합된 모델을 사용해 라인아이템 테이블 검출과 다른 테이블 유형에서 특정 정보를 동시에 추출하는 것을 목표로 하기 위해.
학습 데이터를 초월한 일반화 능력을 평가하기 위해, 새로운 인보이스 유형과 레이아웃에서의 모델 일반화 성능을 검증하기 위해.
향후 연구를 위해 공개 가능한 신규 프로포자 인보이스, 인보이스 및 디비트 노트 데이터셋을 제공하기 위해.

제안 방법

문서 페이지를 워드박스의 그래프로 표현하며, 위치 임베딩, 학습 가능한 텍스트 특징 및 박스 간의 공간적 관계를 통합한다.
테이블 검출을 다중 레이블 워드박스 분류 문제로 재정의하여, 각 워드박스가 특정 테이블 또는 필드(예: 라인아이템, 총액, 수신자 주소)에 속하는지 예측한다.
일련의 순서적 및 공간적 종속성을 모델링하기 위해 1D 컨볼루션 레이어, 멀티헤드 자기주의, 그래프 컨볼루션 레이어를 조합한 신경망 아키텍처를 사용한다.
각 워드박스의 이웃(각 측면 최대 1개)에서 특징을 통합하여 국소적 맥락 이해를 향상시키며, 멀티헤드 어텐션에 의해 대칭적인 관계가 가능해진다.
이진 교차 엔트로피 손실과 시그모이드 활성화 함수를 사용해 모델을 훈련하고, 라인아이템 검출에는 F1 점수, 희귀한 비라인아이템 클래스에는 마이크로-F1 점수로 평가한다.
희귀 클래스 성능 향상을 위해 포칼 손실을 적용하며, 특히 라인아이템 헤더 검출에 유리하지만 전체 성능과의 트레이드오프를 모니터링한다.

실험 결과

연구 질문

RQ1고정된 레이아웃이나 테두리가 없는 경우에도, 단일 학습 가능한 신경망 모델이 라인아이템 테이블을 검출하고 다른 테이블에서 특정 정보를 추출할 수 있는가?
RQ2그래프 컨볼루션과 자기주의가 새로운 인보이스 레이아웃과 형식으로의 일반화 능력 향상에 얼마나 효과적인가?
RQ3위치 특징, 이웃 워드박스 맥락, 텍스트 임베딩이 모델 성능에 기여하는 정도는 어느 정도인가?
RQ4라인아이템 검출과 다른 구조화된 필드 추출을 동시에 학습하는 것이 전체 성능과 일반화 능력을 향상시키는가?
RQ5기본 모델 대비 모델이 희귀 클래스와 새로운 인보이스 유형에서 어떻게 성능을 내는가?

주요 결과

제안된 모델은 라인아이템 테이블 검출에서 93%의 F1 점수를 기록하여 인보이스 이해에서 가장 중요한 작업에서 강력한 성능을 보였다.
35개의 비라인아이템 구조화된 필드에서 66%의 마이크로-F1을 달성하여 클래스 불균형에도 불구하고 다양한 정보 유형으로의 효과적인 일반화를 보였다.
멀티헤드 자기주의의 포함으로 새로운 인보이스 유형으로의 일반화 능력이 크게 향상되어 훈련 에포크 수가 27에서 13으로 감소했다.
각 워드박스에서 한 명의 이웃만 사용할 경우 최적의 성능을 기록했으며, 두 명의 이웃은 라인아이템 본문 검출을 향상시켜 대칭적인 국소 맥락의 중요성을 시사했다.
포칼 손실은 라인아이템 헤더 검출을 향상시켰지만 다른 클래스에서는 성능을 저하시켜 희귀 레이블 처리 시 트레이드오프가 있음을 보여주었다.
익명화된 데이터셋으로의 일반화 성능이 양호하여, 모델이 특정 텍스트 내용에 의존하지 않고 구조적이고 균일하게 배치된 워드 영역을 탐지하는 데 성공했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.