[论文解读] 2D Attentional Irregular Scene Text Recognizer
本论文提出一个基于二维注意力的框架,直接在二维空间对不规则场景文本进行编码和解码,使用关系注意力模块和并行注意力模块,在多个基准数据集上实现了最先进的结果并且推理更快。
Irregular scene text, which has complex layout in 2D space, is challenging to most previous scene text recognizers. Recently, some irregular scene text recognizers either rectify the irregular text to regular text image with approximate 1D layout or transform the 2D image feature map to 1D feature sequence. Though these methods have achieved good performance, the robustness and accuracy are still limited due to the loss of spatial information in the process of 2D to 1D transformation. Different from all of previous, we in this paper propose a framework which transforms the irregular text with 2D layout to character sequence directly via 2D attentional scheme. We utilize a relation attention module to capture the dependencies of feature maps and a parallel attention module to decode all characters in parallel, which make our method more effective and efficient. Extensive experiments on several public benchmarks as well as our collected multi-line text dataset show that our approach is effective to recognize regular and irregular scene text and outperforms previous methods both in accuracy and speed.
研究动机与目标
- 在不进行矫正或一维转换的情况下,激励对不规则的、二维布局文本的鲁棒识别。
- 开发一个端到端框架,保留二维空间信息以提高准确性。
- 引入一个二维关系注意力模块以捕捉全局上下文。
- 引入一个并行注意力模块以同时输出多个字符。
- 在常规、不规则和多行文本数据集上展示最先进的性能和效率。
提出的方法
- 使用 CNN 编码器对输入进行编码,以获得 2D 特征图。
- 应用二维关系注意力模块(多层双向变换器)以捕捉展平特征图中的全局依赖关系。
- 并行使用注意力模块从二维特征并行产生多个片段(输出节点 n)。
- 用两阶段解码器对片段进行解码:第一阶段解码器预测初步字符;第二阶段解码器在关系注意力模块的作用下对输出之间的依赖进行建模并对预测进行细化。
- 端到端训练,采用多任务损失,将两个解码器和所有输出节点的交叉熵求和。
实验结果
研究问题
- RQ1二维注意力是否能够直接作用于不规则的二维文本布局,在不进行矫正或一维展平的情况下产生准确的字符序列?
- RQ2关系注意力和并行注意力是否能提升对不规则和多行文本识别的鲁棒性和效率?
- RQ3在常规和不规则数据集以及像车牌这样的多行文本上的表现如何?
- RQ4第二阶段解码器以及变换器层数对识别准确率有何影响?
主要发现
- 在多个常规和不规则场景文本数据集上实现了最先进的结果。
- 在 SVTP 和 CUTE80 上分别优于之前的方法 3.8% 和 3.5%。
- 在 MLT280 上展示了强大的多行文本识别能力,显著优于 ASTER 和 SAR(随机初始化为 61.4% vs 40.0%,微调后为 80.7% vs 62.5%)。
- 在 MLT280 上,分别比基于矫正的方法和递归二维注意力方法快约 2.1 倍和 4.4 倍。
- 第二阶段解码器和关系注意力模块在所有情况下都比第一阶段解码器和基线变体显著提升准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。