[论文解读] BERTgrid: Contextualized Embedding for 2D Document Representation and Understanding
BERTgrid 创造了一个与文档布局对齐的二维上下文化 BERT 词片嵌入网格,相较于先前的基于网格的方法,在发票字段提取方面有所提升。
For understanding generic documents, information like font sizes, column layout, and generally the positioning of words may carry semantic information that is crucial for solving a downstream document intelligence task. Our novel BERTgrid, which is based on Chargrid by Katti et al. (2018), represents a document as a grid of contextualized word piece embedding vectors, thereby making its spatial structure and semantics accessible to the processing neural network. The contextualized embedding vectors are retrieved from a BERT language model. We use BERTgrid in combination with a fully convolutional network on a semantic instance segmentation task for extracting fields from invoices. We demonstrate its performance on tabulated line item and document header field extraction.
研究动机与目标
- 利用二维文档结构(布局、字体、位置)来提升对发票的信息提取。
- 开发一种保留空间信息同时编码语义上下文的网格表示。
- 在头部字段和逐项字段的提取上对比现有网格方法,评估该方法的表现。
提出的方法
- 将文档表示为一个二维网格,每个单元格包含位于该空间区域的单词片段的上下文化 BERT 嵌入。
- 通过将序列化的文档文本输入到预训练的 BERT 模型来进行嵌入,并使用倒数第二层隐藏层作为每个词片段的嵌入。
- 将 OCR 提取的词位置信息与 BERT 嵌入结合,形成输入张量 W,由一个全卷积网络进行语义分割和边界框回归。
- 将 BERTgrid 与 Chargrid、Wordgrid 以及混合变体(C+BERTgrid、C+Wordgrid)进行比较,使用相同的下游网络以隔离输入表示的影响。
- 在 Nvidia V100 上对每个模型进行 800k 次迭代的训练,BERT 未在下游任务上进行微调。
实验结果
研究问题
- RQ1相对于非上下文或字符级网格,2D 文档网格中的上下文化词片段级嵌入是否能提高发票头部和逐项字段的提取准确性?
- RQ2BERTgrid 相对于 Chargrid 和 Wordgrid 的表现如何,组合模型(C+BERTgrid、C+Wordgrid)是否带来额外提升?
- RQ3在具有复杂布局的文档中,使用领域特定预训练的 BERT 表征对下游信息提取任务有何影响?
主要发现
| Mean | Amount | Number | Date | Vendor name | LI mean | LI quantity | |
|---|---|---|---|---|---|---|---|
| Chargrid | 61.76% | 91.42% | 83.90% | 85.74% | 40.91% | 56.59% | 66.97% |
| Wordgrid | 60.36% | 88.79% | 77.35% | 84.08% | 39.75% | 55.98% | 66.19% |
| C+Wordgrid | 62.94% | 90.53% | 84.34% | 87.12% | 41.63% | 58.19% | 66.79% |
| BERTgrid | 64.21% | 92.44% | 84.99% | 87.79% | 44.86% | 59.38% | 71.97% |
| C+BERTgrid | 65.48% | 92.38% | 86.25% | 88.46% | 47.22% | 60.42% | 73.18% |
- BERTgrid 及其混合形式 C+BERTgrid 在头部和逐项字段的平均提取准确性方面超越所有基线。
- C+BERTgrid 实现 65.48% 的平均提取准确性,相对于 Chargrid 基线提升 6.02%(相对)。
- 上下文化的词片段嵌入比非上下文化的词/字符网格在收敛速度和对布局相关语义的处理上更优。
- 单独使用 Wordgrid 的表现较差,原因在于更高的未登录词问题,而将词级与字符级信息结合则得到最佳结果。
- 在大量未标记的发票语料上对 BERT 进行预训练有助于将领域知识萃取到下游模型使用的嵌入中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。