Skip to main content
QUICK REVIEW

[論文レビュー] Complicated Table Structure Recognition

Zewen Chi, Heyan Huang|arXiv (Cornell University)|Aug 13, 2019
Topic Modeling参考文献 18被引用数 56
ひとこと要約

GraphTSRはPDFの表構造を認識するためのグラフニューラルネットワークを導入し、セル間の関係を予測する。SciTSRという15,000の表を含む大規模データセットを導入。

ABSTRACT

The task of table structure recognition aims to recognize the internal structure of a table, which is a key step to make machines understand tables. Currently, there are lots of studies on this task for different file formats such as ASCII text and HTML. It also attracts lots of attention to recognize the table structures in PDF files. However, it is hard for the existing methods to accurately recognize the structure of complicated tables in PDF files. The complicated tables contain spanning cells which occupy at least two columns or rows. To address the issue, we propose a novel graph neural network for recognizing the table structure in PDF files, named GraphTSR. Specifically, it takes table cells as input, and then recognizes the table structures by predicting relations among cells. Moreover, to evaluate the task better, we construct a large-scale table structure recognition dataset from scientific papers, named SciTSR, which contains 15,000 tables from PDF files and their corresponding structure labels. Extensive experiments demonstrate that our proposed model is highly effective for complicated tables and outperforms state-of-the-art baselines over a benchmark dataset and our new constructed dataset.

研究の動機と目的

  • PDF内で跨がるセルを持つ表構造を認識する課題に対処する。
  • 表セルのグラフ上のエッジ予測問題として表構造認識を再定義する。
  • 垂直/水平の関係を予測するGraphTSRを開発する。
  • 学習と評価を支える大規模なPDF表構造データセット(SciTSR)を作成する。

提案手法

  • 各表をセルを頂点、潜在的な関係を辺とするグラフとして表現する。
  • 関係予測の候補エッジを制限するためにK-NNグラフを構築する。
  • セルと潜在的な関係の間へ情報を伝搬させる交互のエッジ-to-ノードおよびノード-to-エッジのグラフ注意ブロックを用いたGraphTSRを提案する。
  • 初期の頂点/エッジ特徴(サイズ、位置、重なり、距離)をエンコードし、注意機構を用いたメッセージ伝搬でエッジを垂直/水平/関係なしとして分類する。
  • Adamを用いたラベル付きエッジのクロスエントロピーで訓練し、クラス不均衡(関係なし対垂直/水平)に対処するためエッジ重み付けを行う。
  • ラベル付けされたグラフを後処理して最終的な表構造を復元する。

実験結果

リサーチクエスチョン

  • RQ1Can a graph-based model accurately infer complex table structures with spanning cells in PDFs?
  • RQ2Does a learned edge-prediction approach outperform rule-based and image-based baselines on both simple and complicated tables?
  • RQ3How well does GraphTSR generalize across datasets (SciTSR vs ICDAR-2013) and in presence of spanning cells?
  • RQ4What is the impact of the number of graph attention blocks on recognition accuracy, especially for recall?

主な発見

MethodMacro-PrecisionMacro-RecallMacro-F1Micro-PrecisionMicro-RecallMicro-F1
Tabby0.3630.3970.3790.1410.3320.196
DeepDeSRT------
Adobe0.4800.4900.4850.6470.4680.543
GraphTSR0.7110.6960.7030.6300.6200.625
  • GraphTSRはICDAR-2013、SciTSR、SciTSR-COMPデータセットにおいてmacro-F1およびmicro-F1スコアで最先端のベースラインを上回る。
  • 複雑な表(SciTSR-COMP)では、グラフTSRがベースラインより少なくとも7%高いF1を達成。
  • GraphTSRは優れた一般化能力を示し、訓練データなしでICDAR-2013上でも良好に性能を発揮。
  • 複雑な表ではほとんどのベースラインの性能が低下する一方で、GraphTSRは比較的堅牢さを保つ。
  • グラフ注意ブロックの数を増やすとN個分の性能が向上し、特にリコールで顕著な改善が見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。