QUICK REVIEW

[论文解读] Reading Scene Text with Attention Convolutional Sequence Modeling

Yunze Gao, Yingying Chen|arXiv (Cornell University)|Sep 13, 2017

Handwritten Text Recognition Techniques参考文献 33被引用 54

一句话总结

本文提出一种端到端的注意力卷积网络用于场景文本识别，使用堆叠的CNN进行序列建模（无RNN），结合残差注意力，在词典自由和基于词典的设置中在标准基准上达到具有竞争力或最先进的结果。

ABSTRACT

Reading text in the wild is a challenging task in the field of computer vision. Existing approaches mainly adopted Connectionist Temporal Classification (CTC) or Attention models based on Recurrent Neural Network (RNN), which is computationally expensive and hard to train. In this paper, we present an end-to-end Attention Convolutional Network for scene text recognition. Firstly, instead of RNN, we adopt the stacked convolutional layers to effectively capture the contextual dependencies of the input sequence, which is characterized by lower computational complexity and easier parallel computation. Compared to the chain structure of recurrent networks, the Convolutional Neural Network (CNN) provides a natural way to capture long-term dependencies between elements, which is 9 times faster than Bidirectional Long Short-Term Memory (BLSTM). Furthermore, in order to enhance the representation of foreground text and suppress the background noise, we incorporate the residual attention modules into a small densely connected network to improve the discriminability of CNN features. We validate the performance of our approach on the standard benchmarks, including the Street View Text, IIIT5K and ICDAR datasets. As a result, state-of-the-art or highly-competitive performance and efficiency show the superiority of the proposed approach.

研究动机与目标

在不受约束场景中的场景文本识别的效率和准确性挑战。
提出一个全卷积体系结构，以替代循环序列建模，实现更快且可并行处理。
在密集连接的编码器中引入残差注意力，以抑制背景噪声并增强前景文本特征。
在单词级注释下实现端到端训练，而不依赖于分割字符或固定词典。

提出的方法

基于密集块的注意力特征编码器，结合残差注意力，生成对单词图像鲁棒的特征序列。
将特征序列转换为二维映射（序列转映射），对叠层卷积层以建模上下文依赖，避免循环。
将CNN输出恢复为序列（映射转序列），并应用线性层获得每帧的标签分布。
使用时序对齐分类（CTC）将每帧分布转换为最终的单词序列，支持词典自由和词典为基础的解码。
在CTC下使用单词级注释，以负对数似然目标进行端到端训练。
演示效率提升（基于CNN的序列建模比BLSTM更快且参数更少），同时保持竞争力的准确性。

实验结果

研究问题

RQ1无需RNN的卷积序列建模方法是否能在保持计算效率的同时达到与场景文本识别的竞争性识别准确度？
RQ2在密集连接的编码器中加入残差注意力是否能改善前景文本表示并抑制场景文本图像中的背景噪声？
RQ3使用单词级注释的端到端训练对无词汇和基于词汇的场景文本识别是否可行且有效？
RQ4在SVT、IIIT5K和ICDAR基准测试中，与现有最先进方法相比，该注意力卷积网络在不同词典设置下如何表现？

主要发现

方法	SVT-50	SVT	IIIT5k-50	IIIT5k-1k	IIIT5k	IC03-50	IC03-Full	IC03	IC13
Ours	97.4	82.7	99.1	97.9	81.8	98.7	96.7	89.2	88.0

在SVT、IIIT5k、IC03和IC13上达到竞争力到最先进的结果，且在无词典设置下具有很强的表现。
证明基于CNN的序列建模比BLSTM快約9倍，同时参数更少。
残差注意力模块提高了识别准确性，特别是在像SVT和IIIT5k这类嘈杂数据集上。
在基于词典的设置中优于若干先前方法，尤其是在IIIT5k使用1000词词典时。
模型对空间失真具有鲁棒性，并且不依赖显式的文本整形组件。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。