Skip to main content
QUICK REVIEW

[论文解读] Image-based table recognition: data, model, and evaluation

Zhong Xu, Elaheh ShafieiBavani|arXiv (Cornell University)|Nov 25, 2019
Handwritten Text Recognition Techniques参考文献 38被引用 37
一句话总结

这篇论文介绍 PubTabNet,最大的公开数据集用于基于图像的表格识别;一个将表格图像转换为 HTML 的编码器-双解码器(EDD)模型,以及基于树编辑距离的评估度量(TEDS)用于评估。该方法在仅使用图像输入的情况下在复杂表格上优于基线。

ABSTRACT

Important information that relates to a specific topic in a document is often organized in tabular format to assist readers with information retrieval and comparison, which may be difficult to provide in natural language. However, tabular data in unstructured digital documents, e.g., Portable Document Format (PDF) and images, are difficult to parse into structured machine-readable format, due to complexity and diversity in their structure and style. To facilitate image-based table recognition with deep learning, we develop the largest publicly available table recognition dataset PubTabNet (https://github.com/ibm-aur-nlp/PubTabNet), containing 568k table images with corresponding structured HTML representation. PubTabNet is automatically generated by matching the XML and PDF representations of the scientific articles in PubMed Central Open Access Subset (PMCOA). We also propose a novel attention-based encoder-dual-decoder (EDD) architecture that converts images of tables into HTML code. The model has a structure decoder which reconstructs the table structure and helps the cell decoder to recognize cell content. In addition, we propose a new Tree-Edit-Distance-based Similarity (TEDS) metric for table recognition, which more appropriately captures multi-hop cell misalignment and OCR errors than the pre-established metric. The experiments demonstrate that the EDD model can accurately recognize complex tables solely relying on the image representation, outperforming the state-of-the-art by 9.7% absolute TEDS score.

研究动机与目标

  • 提供一个大规模、自动标注的表格图像数据集(PubTabNet),其 HTML 表示从 PMCOA PDFs 提取。
  • 开发一个端到端的基于图像的表格识别模型(EDD),能够分别处理表格结构和单元格内容。
  • 引入一个基于树编辑距离的相似性度量(TEDS),更好地捕捉多跳结构错误和 OCR 错误。
  • 证明 EDD 模型在 PubTabNet 上的有效性,并评估其对合成数据集及外部基线的泛化能力。

提出的方法

  • 通过将 XML-ground-truth 的 HTML 与 PMCOA PDFs 中的对应表格区域对齐并整理干净的 HTML 表示来创建 PubTabNet。
  • 提出一个基于注意力的编码器-双解码器(EDD),具有一个编码器、一个结构解码器和一个单元格解码器;结构解码器生成表格结构,同时触发单元格解码器处理单元内容。
  • 使用双交叉熵损失对 EDD 进行训练,结合结构令牌损失和单元格令牌损失,通过一个 lambda 参数进行平衡(l = lambda * ls + (1 - lambda) * lc)。
  • 将表格表示为 HTML 树;解码结构令牌和单元格内容令牌;将解码器输出合并形成最终的 HTML。
  • 提出基于树编辑距离的相似性(TEDS)度量,在表格树上计算 1 - EditDist(Ta,Tb)/max(|Ta|,|Tb|),对 td 节点的替换成本进行自定义,并对替换的内容相似性进行处理。

实验结果

研究问题

  • RQ1大规模自动生成的数据集(PubTabNet)是否能支持鲁棒的基于图像的表格识别?
  • RQ2双解码器结构(结构感知与内容感知)是否相对于单解码器/图像到 LaTeX 的基线在表格识别准确性上有所提升?
  • RQ3树结构相似性度量(TEDS)是否比现有的基于邻接的度量在捕捉表格错误(结构和 OCR)方面更忠实?
  • RQ4EDD 模型对合成表格数据和外部基线在基于图像的输入上的泛化能力如何?
  • RQ5在表格尺寸、跨越单元以及复杂表头方面,EDD 的极限是什么?

主要发现

  • PubTabNet 包含 568k 张表格图像及其来自 PMCOA 的 XML/PDF 派生的 HTML 表示。
  • EDD 模型在仅使用图像输入的情况下在简单和复杂表格上显著优于基线(TEDS 分数)。
  • EDD 在简单/复杂表格的平均 TEDS 上达到 91.2%,超过 WYGIWYS 及现成工具,且差异显著。
  • TEDS 更有效地捕捉空单元格和多跳错位以及 OCR 错误,优于传统的基于邻接的度量。
  • 在合成数据上,EDD 实现接近完美的 TEDS(约 99.7–99.8%),在四类中比 TIES 具有更高的精确匹配,显示出强泛化能力。
  • 该模型对表格大小具有鲁棒性,但在更大表格上性能下降,暗示通过尺度自适应处理可缓解此问题。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。