QUICK REVIEW

[논문 리뷰] Robust Table Detection and Structure Recognition from Heterogeneous Document Images

Chixiang Ma, Weihong Lin|arXiv (Cornell University)|2022. 03. 16.

Handwritten Text Recognition Techniques참고 문헌 88인용 수 61

한 줄 요약

RobusTabNet는 코너넷 기반 영역 제안과 공간 컨볼루션(CNN)을 이용한 분할-병합 파라다임, 그리고 셀 병합을 위한 그리드 컨볼루션(CNN)을 활용하는 새로운 표 테이블 검출 및 구조 인식 프레임워크를 제안한다. 이는 여섯 개의 공개 벤치마크에서 최고 성능을 기록하며, 복잡하고 기울어지거나 비틀린 표 테이블에 대해서도 뛰어난 내성성을 입증한다.

ABSTRACT

We introduce a new table detection and structure recognition approach named RobusTabNet to detect the boundaries of tables and reconstruct the cellular structure of each table from heterogeneous document images. For table detection, we propose to use CornerNet as a new region proposal network to generate higher quality table proposals for Faster R-CNN, which has significantly improved the localization accuracy of Faster R-CNN for table detection. Consequently, our table detection approach achieves state-of-the-art performance on three public table detection benchmarks, namely cTDaR TrackA, PubLayNet and IIIT-AR-13K, by only using a lightweight ResNet-18 backbone network. Furthermore, we propose a new split-and-merge based table structure recognition approach, in which a novel spatial CNN based separation line prediction module is proposed to split each detected table into a grid of cells, and a Grid CNN based cell merging module is applied to recover the spanning cells. As the spatial CNN module can effectively propagate contextual information across the whole table image, our table structure recognizer can robustly recognize tables with large blank spaces and geometrically distorted (even curved) tables. Thanks to these two techniques, our table structure recognition approach achieves state-of-the-art performance on three public benchmarks, including SciTSR, PubTabNet and cTDaR TrackB2-Modern. Moreover, we have further demonstrated the advantages of our approach in recognizing tables with complex structures, large blank spaces, as well as geometrically distorted or even curved shapes on a more challenging in-house dataset.

연구 동기 및 목표

경량 기반 모델과 코너넷 기반 영역 제안을 활용해 표 테이블 검출의 정확도를 향상시키기.
큰 빈 공간, 복잡한 계층 구조, 기하학적 왜곡이 존재하는 환경에서도 강건한 표 테이블 구조 인식을 가능하게 하기.
스플릿-머지 프레임워크를 개발하여 스파닝 셀과 축에 수직이 아닌 표 테이블을 효과적으로 처리하기.
실제 세계의 왜곡이 있는 도메인에 적용 가능한 도메인 특화 데이터셋과 공개 벤치마크에서의 성능 검증하기.

제안 방법

Faster R-CNN의 영역 제안 네트워크로 코너넷을 사용하여 코너 포인트 검출을 통해 고품질의 표 테이블 제안을 생성한다.
전체 표의 전역적 맥락을 활용해 내성성을 높이기 위해 공간 컨볼루션(CNN) 기반의 분리선 예측 모듈을 도입하여 검출된 표를 격자로 분할한다.
표를 밀도 높은 특징 격자로 모델링하여 스파닝 셀을 복구하기 위해 그리드 컨볼루션(CNN) 기반의 셀 병합 모듈을 적용한다.
스플릿-머지 파이프라인을 통합: 먼저 분리선을 이용해 표를 셀로 분할하고, 이후 공간적 관계에 기반해 셀을 병합한다.
경량 ResNet-18을 기반 모델로 사용하여 낮은 계산 비용으로도 높은 성능을 달성한다.
검출 및 구조 인식 작업을 위한 교차 엔트로피 손실과 IoU 기반 손실을 종합적으로 사용해 엔드 투 엔드로 훈련한다.

실험 결과

연구 질문

RQ1코너넷 기반 영역 제안이 경량 기반 모델을 사용할 때 표 테이블 검출 정확도를 향상시킬 수 있는가?
RQ2공간 컨볼루션(CNN)이 전체 표를 감싸는 맥락을 효과적으로 전파하여 큰 빈 공간과 곡선형 형태를 처리할 수 있는가?
RQ3그리드 컨볼루션(CNN) 기반 병합 모듈이 관계 네트워크나 GCN보다 스팬딩 셀 복구 성능에서 뛰어나게 작용할 수 있는가?
RQ4스플릿-머지 프레임워크는 표준 벤치마크에 포함되지 않은 기하학적으로 왜곡되거나 곡선형인 표 테이블에서 어떻게 성능을 발휘하는가?
RQ5제안된 방법은 스캔 또는 PDF 기반 데이터셋을 초월해 실제 복잡한 문서 이미지에 일반화 가능한가?

주요 결과

IoU@0.9 조건에서 내부 데이터셋에서 RobusTabNet은 94.6%의 F1 스코어를 기록하며 베이스라인 및 이전 방법들을 능가한다.
공간 컨볼루션(CNN) 기반 메시지 전달 방법은 복잡한 표에서 94.6%의 WAvg. F1 스코어를 달성하여 투영 네트워크(93.0%)와 Bi-GRU(93.1%)를 크게 앞서며 뛰어난 성능을 보였다.
그리드 컨볼루션(CNN) 기반 셀 병합 방법은 내부 데이터셋에서 94.6%의 WAvg. F1 스코어를 기록하여 관계 네트워크(93.2%)와 GCN(94.0%)를 초월했다.
공개 벤치마크에서 RobusTabNet은 cTDaR TrackA, PubLayNet, IIIT-AR-13K, SciTSR, PubTabNet, cTDaR TrackB2-Modern에서 최고 성능을 기록했다.
곡선형 및 왜곡된 표 테이블에 대해 내성성이 뛰어나며, 정성적 결과를 통해 극한의 기하학적 왜곡 상황에서도 정확한 분할과 병합이 이루어지는 것으로 확인되었다.
제거 실험 결과 공간 컨볼루션과 그리드 컨볼루션 컴포넌트가 모두 핵심 요소임을 입증하였으며, 이들을 제거할 경우 성능이 크게 저하됨을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.