QUICK REVIEW

[论文解读] SCAN: Sliding Convolutional Attention Network for Scene Text Recognition

Yichao Wu, Fei Yin|arXiv (Cornell University)|Jun 2, 2018

Handwritten Text Recognition Techniques参考文献 26被引用 18

一句话总结

本文提出SCAN，一种用于场景文本识别的滑动卷积注意力网络，通过模拟人类阅读中的扫视与注视行为，实现端到端的序列建模。通过采用全卷积、可并行化的架构与局部注意力机制，SCAN在IIIT5k、SVT和ICDAR基准上均达到最先进性能，同时相比循环神经网络模型提升了模型可解释性。

ABSTRACT

Scene text recognition has drawn great attentions in the community of computer vision and artificial intelligence due to its challenges and wide applications. State-of-the-art recurrent neural networks (RNN) based models map an input sequence to a variable length output sequence, but are usually applied in a black box manner and lack of transparency for further improvement, and the maintaining of the entire past hidden states prevents parallel computation in a sequence. In this paper, we investigate the intrinsic characteristics of text recognition, and inspired by human cognition mechanisms in reading texts, we propose a scene text recognition method with sliding convolutional attention network (SCAN). Similar to the eye movement during reading, the process of SCAN can be viewed as an alternation between saccades and visual fixations. Compared to the previous recurrent models, computations over all elements of SCAN can be fully parallelized during training. Experimental results on several challenging benchmarks, including the IIIT5k, SVT and ICDAR 2003/2013 datasets, demonstrate the superiority of SCAN over state-of-the-art methods in terms of both the model interpretability and performance.

研究动机与目标

为解决基于循环神经网络（RNN）的模型在场景文本识别中的局限性，包括因序列计算导致的训练缓慢以及可解释性差的问题。
开发一种更贴近人类阅读机制的模型，具备明确的扫视移动与对文本组件的视觉注视。
构建一种全卷积架构，支持并行训练，提升优化效率与推理效率。
通过在不依赖分割或黑箱注意力机制的前提下，对单个字符进行注意力定位，提升模型可解释性。
在标准场景文本识别基准上实现最先进性能，同时保持透明性与可扩展性，便于进一步改进。

提出的方法

SCAN在输入特征图上采用滑动窗口机制，每个窗口对应阅读过程中的一个潜在注视点。
模型使用卷积层从每个滑动窗口中提取特征，实现参数共享与空间不变性。
序列学习模块通过全卷积网络处理窗口特征序列，支持训练过程中所有窗口的并行计算。
按窗口计算注意力权重，动态聚焦于相关文本区域，注意力热力图中可清晰观察到字符之间的分隔边界。
模型采用CTC损失进行端到端可训练，实现特征提取与序列解码的联合优化。
模型支持无词典与有词典约束的推理，结合后处理进一步提升准确率。

实验结果

研究问题

RQ1全卷积架构结合局部注意力机制是否能在实现并行训练的同时，超越基于RNN的模型在场景文本识别中的性能？
RQ2通过模拟人类阅读行为（即扫视与注视）是否能同时提升场景文本识别的性能与可解释性？
RQ3滑动窗口结合卷积序列学习的方法是否能有效处理不规则与弯曲文本，而无需复杂后处理？
RQ4SCAN中的注意力机制在多大程度上能精确定位到单个字符，其边界定位能力是否优于循环注意力模型？
RQ5在多样化的基准上，SCAN在准确率、训练速度与模型透明性方面与最先进方法相比表现如何？

主要发现

SCAN在IIIT5k数据集上达到99.1%的准确率，较之前最先进方法高出近1%。
在SVT数据集上，SCAN达到98.3%的准确率，较先前最先进模型CRNN高出2.3%。
SCAN在ICDAR 2013测试集上达到92.1%的准确率，在比较表格列出的所有方法中排名第一。
注意力热力图清晰显示出字符之间的明显间隔，表明模型能以高精度将注意力定位在单个字符区域。
即使在训练数据较少的情况下，SCAN仍表现出优越性能，优于Cheng等人（2018）的方法，后者使用了400万张额外的像素级标注图像。
SCAN在所有基准上的平均排名最高，证实其相对于先前方法的持续优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。