Skip to main content
QUICK REVIEW

[论文解读] Table understanding in structured documents

Martin Holeček, Antonín Hoskovec|arXiv (Cornell University)|Mar 22, 2019
Handwritten Text Recognition Techniques参考文献 35被引用 34
一句话总结

本文提出了一种基于图神经网络的新模型,用于在布局复杂的业务文档(如发票)中端到端地检测表格并提取结构化信息。该模型将表格检测问题转化为基于位置嵌入、文本特征和图卷积的单词框分类问题。模型在逐行项目表格检测任务上达到93%的F1分数,在其他35个结构化字段上达到66%的微F1分数,展示了其在多种发票布局和类型中的强大泛化能力。

ABSTRACT

Abstract--- Table detection and extraction has been studied in the context of documents like reports, where tables are clearly outlined and stand out from the document structure visually. We study this topic in a rather more challenging domain of layout-heavy business documents, particularly invoices. Invoices present the novel challenges of tables being often without outlines - either in the form of borders or surrounding text flow - with ragged columns and widely varying data content. We will also show, that we can extract specific information from structurally different tables or table-like structures with one model. We present a comprehensive representation of a page using graph over word boxes, positional embeddings, trainable textual features and rephrase the table detection as a text box labeling problem. We will work on our newly presented dataset of pro forma invoices, invoices and debit note documents using this representation and propose multiple baselines to solve this labeling problem. We then propose a novel neural network model that achieves strong, practical results on the presented dataset and analyze the model performance and effects of graph convolutions and self-attention in detail.

研究动机与目标

  • 解决在布局复杂的业务文档(如发票)中检测和提取结构化信息的挑战,其中表格通常无边框且列不齐。
  • 开发一个完全可训练的端到端系统,无需手动配置布局,即可在多种发票布局、语言和格式间实现泛化。
  • 通过统一模型联合学习逐行项目表格检测和从其他类似表格结构中提取特定信息。
  • 在未见过的发票类型和布局上评估模型的泛化能力,确保其在训练数据之外的可扩展性。
  • 发布一个全新的、公开可用的发票、形式发票和贷方账单数据集,以支持未来研究。

提出的方法

  • 将文档页面表示为单词框的图结构,整合位置嵌入、可学习的文本特征以及框体之间的空间关系。
  • 将表格检测重新定义为多标签单词框分类任务,其中每个单词框被预测为属于特定表格或字段(如逐行项目、总金额、收件人地址)。
  • 采用结合一维卷积层、多头自注意力机制和图卷积层的神经网络架构,以建模序列和空间依赖性。
  • 通过引入相邻单词框的特征(每侧最多一个)来增强局部上下文理解,多头自注意力机制使关系对称化。
  • 使用二元交叉熵损失函数配合Sigmoid激活函数进行训练,并使用F1分数评估逐行项目检测,使用微F1分数评估罕见的非逐行项目类别。
  • 应用焦点损失以提升罕见类别(特别是逐行项目表头)的性能,同时监控其对整体性能的权衡影响。

实验结果

研究问题

  • RQ1单一可训练的神经网络模型是否能够在无固定布局或边框的发票中检测逐行项目表格并提取其他表格中的特定信息?
  • RQ2图卷积和自注意力机制在实现对未见过的发票布局和格式的泛化方面有多有效?
  • RQ3位置特征、相邻单词框上下文和文本嵌入在多大程度上促进了模型性能?
  • RQ4联合学习逐行项目检测与其他结构化字段提取是否能提升整体性能和泛化能力?
  • RQ5与基线方法相比,该模型在罕见类别和未见过的发票类型上的表现如何?

主要发现

  • 所提模型在逐行项目表格检测任务上达到93%的F1分数,表明其在发票理解中最关键任务上的强大性能。
  • 在35个非逐行项目结构化字段上达到66%的微F1分数,表明尽管存在类别不平衡,模型在多种信息类型上仍具备良好的泛化能力。
  • 引入多头自注意力机制显著提升了对未见过的发票类型的泛化能力,将训练轮数从27轮减少至13轮。
  • 每个单词框使用一个相邻框时性能最优,使用两个相邻框则提升了逐行项目主体的检测效果,表明对称局部上下文的重要性。
  • 焦点损失提升了逐行项目表头的检测性能,但降低了其他类别的表现,表明在处理罕见标签时存在性能权衡。
  • 模型在匿名化数据集上也表现出良好泛化能力,表明其学习的是检测结构化、均匀分布的单词区域,而非依赖于特定文本内容。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。