QUICK REVIEW

[논문 리뷰] TableBank: Table Benchmark for Image-based Table Detection and Recognition

Minghao Li, Lei Cui|arXiv (Cornell University)|2019. 03. 05.

Handwritten Text Recognition Techniques인용 수 60

한 줄 요약

TableBank는 Word 및 LaTeX 문서에서 유도된 대규모이고 약한 감독을 받는 417,000개의 고품질 레이블링된 표를 포함한 데이터셋을 제공하여, 이미지 기반 표 검출 및 인식을 위한 딥러닝 모델의 강력한 훈련을 가능하게 한다. 이 데이터셋은 이전에 인간 레이블링 데이터가 제한적이었던 방법들에 비해 일반화 능력을 크게 향상시킨다.

ABSTRACT

We present TableBank, a new image-based table detection and recognition dataset built with novel weak supervision from Word and Latex documents on the internet. Existing research for image-based table detection and recognition usually fine-tunes pre-trained models on out-of-domain data with a few thousand human-labeled examples, which is difficult to generalize on real-world applications. With TableBank that contains 417K high quality labeled tables, we build several strong baselines using state-of-the-art models with deep neural networks. We make TableBank publicly available and hope it will empower more deep learning approaches in the table detection and recognition task. The dataset and models are available at \url{this https URL}.

연구 동기 및 목표

이미지 기반 표 검출 및 인식을 위한 대규모, 다양한 종류의 고품질 훈련 데이터의 부족 문제를 해결하기 위해.
기존 문서 형식에서 유도된 약한 감독을 활용하여 고비용의 인간 레이블링 데이터셋에 대한 의존도를 줄이기 위해.
실세계 표 인식 작업을 위한 더 일반화되고 강력한 딥러닝 모델을 가능하게 하기 위해.
연구를 가속화하기 위해 공개 벤치마크 데이터셋과 강력한 베이스라인을 제공하기 위해.

제안 방법

공개된 Word 및 LaTeX 문서를 활용하여 구조화된 표 레이아웃을 약한 감독으로 추출하기 위해.
자동화된 데이터 마이닝 및 파싱 기법을 적용하여 문서 소스에서 표 이미지와 해당 레이블을 추출하기 위해.
정확한 바운딩 박스와 셀 수준의 레이블이 포함된 417,000개의 고품질이고 다양한 표 이미지로 구성된 대규모 데이터셋을 구축하기 위해.
TableBank에서 최신 딥 네트워크 모델을 훈련하고 평가하여 강력한 베이스라인을 수립하기 위해.
재현성과 향후 연구를 지원하기 위해 데이터셋과 훈련된 모델을 공개하기 위해.

실험 결과

연구 질문

RQ1Word 및 LaTeX 문서에서 유도된 약한 감독이 대규모 고품질 표 검출 및 인식 데이터셋을 효과적으로 생성할 수 있는가?
RQ2작은 인간 레이블링 데이터셋으로 미세조정된 모델에 비해 TableBank는 모델의 일반화 능력을 어떻게 향상시키는가?
RQ3딥러닝 모델의 사전 훈련 또는 미세조정을 위해 TableBank를 사용할 경우 기대할 수 있는 성능 향상은 어느 정도인가?
RQ4TableBank의 규모와 다양성이 표 검출 및 인식 시스템의 강건성에 어느 정도 기여하는가?

주요 결과

TableBank는 정확한 레이블이 포함된 417,000개의 고품질이고 다양한 표 이미지를 포함하고 있으며, 이는 이전 데이터셋보다 크게 규모가 크다.
Word 및 LaTeX 문서에서 유도된 약한 감독을 활용하면 수동 레이블링 없이도 확장 가능한 데이터 수집이 가능하다.
TableBank에서 훈련된 모델은 표 검출 및 인식 벤치마크에서 뛰어난 성능을 달성한다.
데이터셋과 베이스라인은 공개되어 있어 연구 접근성과 재현성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.