QUICK REVIEW

[論文レビュー] TableBank: Table Benchmark for Image-based Table Detection and Recognition

Minghao Li, Lei Cui|arXiv (Cornell University)|Mar 5, 2019

Handwritten Text Recognition Techniques被引用数 60

ひとこと要約

TableBank は、Word や LaTeX ドキュメントから得た弱い教師信号を用いて、417,000 件の高品質なラベル付きテーブルを含む大規模な弱教師付きデータセットを提供する。これにより、画像ベースのテーブル検出および認識のためのディーブラーニングモデルの強固な訓練が可能となり、従来の限られた人手によるアノテーションデータに依存する手法に比べて一般化性能が著しく向上する。

ABSTRACT

We present TableBank, a new image-based table detection and recognition dataset built with novel weak supervision from Word and Latex documents on the internet. Existing research for image-based table detection and recognition usually fine-tunes pre-trained models on out-of-domain data with a few thousand human-labeled examples, which is difficult to generalize on real-world applications. With TableBank that contains 417K high quality labeled tables, we build several strong baselines using state-of-the-art models with deep neural networks. We make TableBank publicly available and hope it will empower more deep learning approaches in the table detection and recognition task. The dataset and models are available at \url{this https URL}.

研究の動機と目的

画像ベースのテーブル検出および認識のための、大規模で多様性に富み、高品質なトレーニングデータの不足に対処すること。
既存のドキュメント形式からの弱い教師信号を活用することで、高価な人手によるアノテーションデータセットへの依存を低減すること。
実世界のテーブル認識タスクにおいて、より一般化可能で頑健なディーブラーニングモデルの構築を可能にすること。
研究の加速を目的として、公開用ベンチマークデータセットと強力なベースラインを提供すること。

提案手法

公開済みの Word および LaTeX ドキュメントを活用し、構造化されたテーブルレイアウトを弱い教師信号として抽出すること。
自動化されたデータマイニングおよびパース技術を用いて、ドキュメントソースからテーブル画像とその対応するアノテーションを抽出すること。
正確なバウンディングボックスとセルレベルのアノテーションを備えた、417,000 件の高品質で多様性に富んだテーブル画像の大型データセットを構築すること。
TableBank で最先端のディープニューラルネットワークモデルをトレーニングおよび評価し、強力なベースラインを確立すること。
データセットおよびトレーニング済みモデルを公開し、再現可能性およびさらなる研究を支援すること。

実験結果

リサーチクエスチョン

RQ1Word や LaTeX ドキュメントからの弱い教師信号が、大規模で高品質なテーブル検出および認識データセットを効果的に生成できるか。
RQ2TableBank を用いることで、小規模な人手によるアノテーションデータセットでファインチューニングされたモデルに比べ、モデルの一般化性能がどの程度向上するか。
RQ3TableBank を用いてディーブラーニングモデルの事前学習またはファインチューニングを実施した場合、どの程度の性能向上が達成できるか。
RQ4TableBank の規模および多様性が、テーブル検出および認識システムの頑健性をどの程度向上させるか。

主な発見

TableBank には、正確なアノテーションを備えた 417,000 件の高品質で多様性に富んだテーブル画像が含まれており、従来のデータセットに比べて顕著に大規模である。
Word や LaTeX ドキュメントからの弱い教師信号の活用により、手動でのラベリングなしにスケーラブルなデータ収集が可能である。
TableBank でトレーニングされたモデルは、テーブル検出および認識ベンチマークで優れた性能を達成している。
データセットおよびベースラインは公開されており、研究の広範なアクセスと再現可能性を可能にしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。