QUICK REVIEW

[论文解读] TableBank: Table Benchmark for Image-based Table Detection and Recognition

Minghao Li, Lei Cui|arXiv (Cornell University)|Mar 5, 2019

Handwritten Text Recognition Techniques被引用 60

一句话总结

TableBank 引入了一个大规模、弱监督的表格数据集，包含从 Word 和 LaTeX 文档中提取的 417,000 个高质量标注表格，可支持基于图像的表格检测与识别的深度学习模型的稳健训练。该数据集显著提升了先前依赖有限人工标注数据的方法的泛化能力。

ABSTRACT

We present TableBank, a new image-based table detection and recognition dataset built with novel weak supervision from Word and Latex documents on the internet. Existing research for image-based table detection and recognition usually fine-tunes pre-trained models on out-of-domain data with a few thousand human-labeled examples, which is difficult to generalize on real-world applications. With TableBank that contains 417K high quality labeled tables, we build several strong baselines using state-of-the-art models with deep neural networks. We make TableBank publicly available and hope it will empower more deep learning approaches in the table detection and recognition task. The dataset and models are available at \url{this https URL}.

研究动机与目标

解决基于图像的表格检测与识别任务中缺乏大规模、多样化且高质量训练数据的问题。
通过利用现有文档格式中的弱监督，减少对昂贵人工标注数据集的依赖。
实现更通用且鲁棒的深度学习模型，以应对现实世界中的表格识别任务。
提供公开的基准数据集和强基线模型，以加速表格检测与识别领域的研究。

提出的方法

利用公开的 Word 和 LaTeX 文档，提取结构化表格布局作为弱监督信号。
应用自动化数据挖掘与解析技术，从文档源中提取表格图像及其对应标注。
构建一个包含 417,000 个高质量、多样化表格图像的大规模数据集，具备精确的边界框和单元格级标注。
在 TableBank 上训练并评估最先进的深度神经网络模型，以建立强基线。
发布数据集和训练好的模型，以支持可复现性与进一步研究。

实验结果

研究问题

RQ1能否通过 Word 和 LaTeX 文档的弱监督有效生成大规模、高质量的表格检测与识别数据集？
RQ2与在小规模人工标注数据集上微调的模型相比，TableBank 如何提升模型的泛化能力？
RQ3使用 TableBank 对深度学习模型进行预训练或微调，能够实现多大的性能提升？
RQ4TableBank 的规模与多样性在多大程度上增强了表格检测与识别系统的鲁棒性？

主要发现

TableBank 包含 417,000 个高质量、多样化的表格图像，其规模远超以往的数据集。
利用 Word 和 LaTeX 文档的弱监督可实现无需人工标注的大规模数据收集。
在 TableBank 上训练的模型在表格检测与识别基准测试中表现出色。
数据集和基线模型已公开发布，支持更广泛的研究访问与可复现性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。