QUICK REVIEW

[논문 리뷰] A Saliency-based Convolutional Neural Network for Table and Chart Detection in Digitized Documents

Isaak Kavasidis, Simone Palazzo|arXiv (Cornell University)|2018. 04. 17.

Handwritten Text Recognition Techniques참고 문헌 1인용 수 24

한 줄 요약

이 논문은 디지털화된 문서 이미지에서 표와 차트를 정확하게 검출하고 국소화하기 위해 색소 기반의 완전 컨volution 신경망과 완전 연결 CRF를 결합한 방법을 제안한다. 카테고리별 색소, 다중 척도 특징 추론, CRF 기반 정제를 활용함으로써, 확장된 ICDAR 2013 벤치마크에서 기존 방법들을 능가하는 최신 기술 수준의 F1 스코어 97.8%를 달성한다.

ABSTRACT

Deep Convolutional Neural Networks (DCNNs) have recently been applied successfully to a variety of vision and multimedia tasks, thus driving development of novel solutions in several application domains. Document analysis is a particularly promising area for DCNNs: indeed, the number of available digital documents has reached unprecedented levels, and humans are no longer able to discover and retrieve all the information contained in these documents without the help of automation. Under this scenario, DCNNs offers a viable solution to automate the information extraction process from digital documents. Within the realm of information extraction from documents, detection of tables and charts is particularly needed as they contain a visual summary of the most valuable information contained in a document. For a complete automation of visual information extraction process from tables and charts, it is necessary to develop techniques that localize them and identify precisely their boundaries. In this paper we aim at solving the table/chart detection task through an approach that combines deep convolutional neural networks, graphical models and saliency concepts. In particular, we propose a saliency-based fully-convolutional neural network performing multi-scale reasoning on visual cues followed by a fully-connected conditional random field (CRF) for localizing tables and charts in digital/digitized documents. Performance analysis carried out on an extended version of ICDAR 2013 (with annotated charts as well as tables) shows that our approach yields promising results, outperforming existing models.

연구 동기 및 목표

기존의 객체 검출기들이 레이아웃 기반의 차이로 인해 시각적 콘텐츠와는 무관하게 성능이 떨어지는 디지털 문서 이미지에서 표와 차트를 검출하는 데 도전하는 것.
표면적인 DCNN의 다수 예측 작업에서의 한계를 극복하기 위해 다중 척도 추론과 색소 모델링을 통합함으로써 국소화 성능을 향상시키는 것.
깊이 학습과 완전 연결 CRF를 결합하여 색소 맵의 후처리 정제를 통해 검출 정확도를 향상시키는 것.
문서 형식 메타데이터에 의존하지 않고도 룰이 없는 복잡한 표와 다양한 차트 유형에 대해 강건한 방법을 개발하는 것.

제안 방법

목표 객체 카테고리(표, 막대 차트, 원형 차트, 선형 차트) 기반으로 문서 이미지의 주목할 만한 영역을 검출하기 위해 완전 컨volution 신경망을 훈련시키며, 카테고리별 색소를 감독 신호로 사용한다.
세밀한 구조와 전반적인 구조 패턴을 모두 포착하기 위해 다중 척도 특징 집합을 활용함으로써 고해상도 특징 맵에서 국소화 성능을 향상시킨다.
후속 분류 작업에서 생성된 색소 맵의 분류 능력을 기반으로 보조 손실을 도입하여 특징 학습을 향상시킨다.
네트워크 후처리로 완전 연결 조건부 랜덤 필드(CRF)를 적용하여 세그멘테이션 출력을 정제하고 노이즈를 줄이며 빈틈을 메운다.
CRF는 픽셀 간 장거리 의존성을 모델링하여 공간 일관성을 강화하고, 검출 부족을 수정한다.
최종 출력은 고신뢰도 영역에 대해 비최대 억제를 통해 바운딩 박스가 예측된 픽셀 단위 분류 맵이다.

실험 결과

연구 질문

RQ1표준 객체 검출 방법과 비교하여 색소 기반 딥 러닝이 레이아웃 기반 객체인 표와 차트의 검출 성능을 향상시키는가?
RQ2표와 차트 국소화와 같은 다수 예측 작업에서 완전 컨볼루션 네트워크에서 다중 척도 추론이 얼마나 효과적인가?
RQ3완전 연결 CRF가 색소 맵을 정제하고 거짓 음성 수를 줄임으로써 검출 성능을 얼마나 향상시키는가?
RQ4색소 학습과 분류 능력 신호를 결합함으로써 모델이 표/차트와 배경 또는 유사한 구조를 더 잘 구분할 수 있는가?
RQ5표와 차트를 모두 포함한 벤치마크에서 제안된 방법이 최신 기술 수준의 방법과 F1 스코어, 정밀도, 재현율 측면에서 어떻게 비교되는가?

주요 결과

제안된 방법은 확장된 ICDAR 2013 데이터셋에서 F1 스코어 97.8%를 달성하여 이전 최신 기술 수준의 방법들을 크게 능가했다.
제거 실험 결과, CRF 모듈을 추가함으로써 F1 스코어가 SAL-CL의 90.4%에서 ALL 구성의 97.8%로 상승하여, 거짓 음성 감소에 있어 CRF의 핵심적 역할을 입증했다.
CRF는 재현율을 12% 향상시켰지만 정밀도는 6%만 증가시켜, 주로 큰 크기이거나 부분적으로 검출된 객체의 빈틈을 메우는 데서 주요 이점이 있음을 보여주었다.
SAL-only 구성은 F1 스코어가 오직 76.3%에 그쳐, 카테고리별 학습과 CRF 정제 없이 일반적인 색소 검출만으로는 부족함을 입증했다.
복잡하고 룰이 없는 표, 그리고 파이 차트, 막대 차트 등 다양한 차트 유형을 포함하여, 겹치는 요소가 많은 어려운 레이아웃에서도 성공적으로 검출하였다.
시각화 결과는 CRF가 불완전한 검출을 효과적으로 확장하고 경계 오류를 수정함을 확인했으며, 최종 출력 바운딩 박스가 정답에 더 가까이 일치함을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.