Skip to main content
QUICK REVIEW

[论文解读] Complicated Table Structure Recognition

Zewen Chi, Heyan Huang|arXiv (Cornell University)|Aug 13, 2019
Topic Modeling参考文献 18被引用 56
一句话总结

GraphTSR 引入一种图神经网络来通过预测单元格关系在PDF中识别表格结构,并引入 SciTSR,一个包含来自科学论文的 15,000 张表格的大规模数据集。

ABSTRACT

The task of table structure recognition aims to recognize the internal structure of a table, which is a key step to make machines understand tables. Currently, there are lots of studies on this task for different file formats such as ASCII text and HTML. It also attracts lots of attention to recognize the table structures in PDF files. However, it is hard for the existing methods to accurately recognize the structure of complicated tables in PDF files. The complicated tables contain spanning cells which occupy at least two columns or rows. To address the issue, we propose a novel graph neural network for recognizing the table structure in PDF files, named GraphTSR. Specifically, it takes table cells as input, and then recognizes the table structures by predicting relations among cells. Moreover, to evaluate the task better, we construct a large-scale table structure recognition dataset from scientific papers, named SciTSR, which contains 15,000 tables from PDF files and their corresponding structure labels. Extensive experiments demonstrate that our proposed model is highly effective for complicated tables and outperforms state-of-the-art baselines over a benchmark dataset and our new constructed dataset.

研究动机与目标

  • 解决在 PDF 中识别包含跨越单元格的表格结构的挑战。
  • 将表格结构识别重新表述为对表格单元格图上的边预测问题。
  • 开发 GraphTSR 以预测单元格之间的垂直/水平关系。
  • 创建一个大规模的 PDF 表格结构数据集(SciTSR),以支持学习和评估。

提出的方法

  • 将每个表表示为一个图,其中单元格是顶点,潜在关系是边。
  • 构建一个 K-NN 图以限制关系预测的候选边。
  • 提出 GraphTSR,使用交替的边到顶点和顶点到边的图注意力块在单元格和潜在关系之间传播信息。
  • 对初始顶点/边特征(大小、位置、重叠、距离)进行编码,并使用基于注意力的消息传递将边分类为垂直、水平或无关系。
  • 使用 Adam 以带有交叉熵的方式在有标签的边上训练,并通过边权重处理类别不平衡(无关系 vs. 垂直/水平)。
  • 对标记后的图进行后处理以恢复最终表结构。

实验结果

研究问题

  • RQ1基于图的模型是否能够在 PDF 中准确推断包含跨越单元的复杂表格结构?
  • RQ2学习的边预测方法是否在简单和复杂表格上都优于基于规则和基于图像的基线?
  • RQ3GraphTSR 在跨数据集(SciTSR 与 ICDAR-2013)以及存在跨越单元的情况下的泛化能力如何?
  • RQ4图注意力块的数量对识别准确率,特别是召回率的影响是什么?

主要发现

方法宏观精确度宏观召回率宏观F1微观精确度微观召回率微观F1
Tabby0.3630.3970.3790.1410.3320.196
DeepDeSRT------
Adobe0.4800.4900.4850.6470.4680.543
GraphTSR0.7110.6960.7030.6300.6200.625
  • GraphTSR 在 ICDAR-2013、SciTSR 和 SciTSR-COMP 数据集上的宏F1和微F1分数均优于最先进的基线。
  • 在复杂表格(SciTSR-COMP)上,GraphTSR 的 F1 至少比基线高出 7%。
  • GraphTSR 展示出强泛化能力,在 ICDAR-2013 上无需该数据集的训练数据也能表现良好。
  • 在复杂表格上大多数基线的性能下降,而 GraphTSR 相对鲁棒。
  • 增加图注意力块的数量 N 可提升性能,特别在召回率上有显著提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。