Skip to main content
QUICK REVIEW

[论文解读] TableBank: A Benchmark Dataset for Table Detection and Recognition

Minghao Li, Lei Cui|arXiv (Cornell University)|Mar 5, 2019
Handwritten Text Recognition Techniques参考文献 30被引用 30
一句话总结

本文提出 TableBank,一个大规模、高质量的基准数据集,包含 417,234 个通过从公开的 Word 和 LaTeX 文档中弱监督生成的标注表格。利用该数据集,作者基于最先进的深度学习模型建立了端到端表格检测与结构识别的强基线模型,证明了多样化、大规模训练数据在提升真实文档布局中泛化能力方面的重要性。

ABSTRACT

We present TableBank, a new image-based table detection and recognition dataset built with novel weak supervision from Word and Latex documents on the internet. Existing research for image-based table detection and recognition usually fine-tunes pre-trained models on out-of-domain data with a few thousand human-labeled examples, which is difficult to generalize on real-world applications. With TableBank that contains 417K high quality labeled tables, we build several strong baselines using state-of-the-art models with deep neural networks. We make TableBank publicly available and hope it will empower more deep learning approaches in the table detection and recognition task. The dataset and models are available at \url{https://github.com/doc-analysis/TableBank}.

研究动机与目标

  • 解决真实世界文档应用中基于图像的表格检测与识别缺乏大规模、多样化且高质量训练数据的问题。
  • 克服现有数据集规模小(仅数千个样本)且领域特定的局限性,从而改善在布局与格式变化下的泛化能力。
  • 开发一种可扩展的自动化方法,利用结构化源文档(Word 和 LaTeX)的弱监督生成高质量训练数据。
  • 建立一个标准基准,用于评估不同文档类型和布局下表格检测与结构识别模型的性能。
  • 通过利用大规模、开放域的训练数据,使端到端深度学习方法在不同领域间实现更好的泛化能力。

提出的方法

  • 利用原生 Word(.docx)和 LaTeX(.tex)文档中的结构化标记,通过解析内部 XML 和 TeX 代码自动提取表格边界。
  • 通过标记标签(如 LaTeX 中的 \begin{table},Office Open XML 中的 table 元素)应用弱监督,自动识别表格区域,实现无需人工标注的边界框自动标注。
  • 构建一个包含 417,234 个高质量、基于图像的表格实例的大规模数据集,涵盖研究论文、商业文档和官方申报文件等多种领域。
  • 训练并评估最先进的深度学习模型,包括用于表格检测的 Faster R-CNN 和用于表格结构识别的编码器-解码器图像到文本模型。
  • 从 Word 和 LaTeX 文档中分别构建测试集,以评估模型在不同文档来源和布局下的泛化能力。
  • 在 https://github.com/doc-analysis/TableBank 公开发布数据集和模型,以支持未来研究。

实验结果

研究问题

  • RQ1能否通过结构化文档源(Word 和 LaTeX)的弱监督生成大规模、高质量的表格检测与识别训练数据?
  • RQ2当在多样化数据上进行训练时,模型在不同文档布局和格式下的表格检测与结构识别性能如何变化?
  • RQ3增加训练数据规模和多样性在多大程度上能提升基于图像的表格分析模型的泛化能力?
  • RQ4在 TableBank 上训练的端到端深度学习模型能否超越依赖小规模人工标注数据集的现有方法?
  • RQ5在一种文档类型(如 LaTeX)上微调的模型在其他类型(如 Word)上的泛化能力如何?这对领域泛化意味着什么?

主要发现

  • TableBank 数据集包含 417,234 个高质量、基于图像的表格实例,其规模远超现有基准,达到数量级的差异。
  • 在 TableBank 上训练的模型在表格检测与结构识别任务中表现出显著的性能提升,尤其在跨布局与格式变化的泛化方面。
  • 不同来源的训练数据之间存在显著的领域偏移——基于 LaTeX 的表格训练的模型在 Word 表格上表现差,反之亦然。
  • 利用源代码(Word 和 LaTeX)的弱监督可实现无需人工标注的大规模、高精度训练数据生成,显著降低人工成本并提升可扩展性。
  • 基于 Faster R-CNN 和图像到文本序列模型的基线模型在 TableBank 上表现强劲,证明了该数据集在训练鲁棒、可泛化模型方面的实用性。
  • 结果凸显了数据多样性与规模在提升模型泛化能力方面的重要作用,表明未来表格分析的进展将依赖于此类大规模、开放的基准。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。