[论文解读] CUTIE: Learning to Understand Documents with Convolutional Universal Text Information Extractor
CUTIE 引入基于 CNN 的方法,将文档中的文本网格化,以共同利用语义信息和空间信息进行关键信息提取,在更少的训练数据和无需预训练的情况下实现了state-of-the-art。
Extracting key information from documents, such as receipts or invoices, and preserving the interested texts to structured data is crucial in the document-intensive streamline processes of office automation in areas that includes but not limited to accounting, financial, and taxation areas. To avoid designing expert rules for each specific type of document, some published works attempt to tackle the problem by learning a model to explore the semantic context in text sequences based on the Named Entity Recognition (NER) method in the NLP field. In this paper, we propose to harness the effective information from both semantic meaning and spatial distribution of texts in documents. Specifically, our proposed model, Convolutional Universal Text Information Extractor (CUTIE), applies convolutional neural networks on gridded texts where texts are embedded as features with semantical connotations. We further explore the effect of employing different structures of convolutional neural network and propose a fast and portable structure. We demonstrate the effectiveness of the proposed method on a dataset with up to $4,484$ labelled receipts, without any pre-training or post-processing, achieving state of the art performance that is much better than the NER based methods in terms of either speed and accuracy. Experimental results also demonstrate that the proposed CUTIE model being able to achieve good performance with a much smaller amount of training data.
研究动机与目标
- 在不依赖手工设计模板或模板模板的情况下,推动对多样化文档布局的鲁棒关键信息提取。
- 将语义词嵌入与文档中文本的精确空间关系结合。
- 提出网格位置映射以及两种CNN架构,以捕捉多尺度上下文和长程依赖。
- 证明 CUTIE 在有限的训练数据、且无需预训练或后处理的情况下也能实现较强性能。
提出的方法
- 通过将文本令牌映射到保持相对空间关系的网格来创建文档的网格表示。
- 用词嵌入对令牌进行嵌入,并将网格输入到CNN以预测文本标签网格。
- 提出两种CNN变体:CUTIE-A(高分辨率、多尺度特征融合)和 CUTIE-B(空洞卷积与 ASPP)。
- 在训练中使用预测网格与真实网格之间的交叉熵损失。
- 在ICDAR 2019 SROIE和自建的西班牙发票数据集上进行评估,指标为按类别和令牌级别。
- 与 CloudScan 和用于NER的 BERT进行对比,以评估速度和准确性。
实验结果
研究问题
- RQ1CUTIE 是否能够有效融合语义与文本的空间特征,在不同文档布局下实现鲁棒的关键信息提取?
- RQ2网格增强和多尺度CNN结构在有限训练数据下是否能够提升提取精度?
- RQ3在 SROIE 和扩展数据集上,CUTIE-A 与 CUTIE-B 在准确性、模型大小和训练效率方面的比较如何?
主要发现
| 方法 | 参数数量 | 出租车 AP/SoftAP | ME AP/SoftAP | 酒店 AP/SoftAP |
|---|---|---|---|---|
| CloudScan | - | 82 / - | 64 / - | 60 / - |
| BERT for NER | 110M | 88.1 / - | 80.1 / - | 71.7 / - |
| CUTIE-A | 67M | 90.8 / 97.2 | 77.7 / 91.4 | 69.5 / 87.8 |
| CUTIE-B | 14M | 94.0 / 97.3 | 81.5 / 89.7 | 74.6 / 87.0 |
- CUTIE-B 在出租车收据上达到 94.0 AP 和 97.3 softAP,在 ME 上达到 81.5 AP 和 89.7 softAP,在酒店收据上达到 74.6 AP 和 87.0 softAP。
- CUTIE-A 在出租车收据上达到 90.8 AP 和 97.2 softAP,在 ME 上达到 77.7 AP 和 91.4 softAP,在酒店收据上达到 69.5 AP 和 87.8 softAP。
- CUTIE 模型在 AP/softAP 方面在三种文档类型上均优于 CloudScan 和用于NER的 BERT;其中 CUTIE-B 在参数量为 14M 时达到与 BERT(110M)相似或更好的准确度。
- 网格增强提升了空间理解,并且获得的 AP/softAP 高于未增强的情况。
- CUTIE-B 在仅需大约 21% 的训练数据的情况下也能达到较强的性能,且 CUTIE-B 的参数量约为 BERT 的一半即可超越基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。