Skip to main content
QUICK REVIEW

[论文解读] Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition

Hui Li, Peng Wang|arXiv (Cornell University)|Nov 2, 2018
Handwritten Text Recognition Techniques参考文献 29被引用 44
一句话总结

这篇论文提出了一个简单而强大的非规则场景文本识别基线,使用31层的ResNet、基于LSTM的编码器-解码器,以及一个依赖于单词级标注的定制2D注意力模块。它在非规则文本上达到最先进的结果,在常规文本上也具有竞争力,且无需字符级监督。

ABSTRACT

Recognizing irregular text in natural scene images is challenging due to the large variance in text appearance, such as curvature, orientation and distortion. Most existing approaches rely heavily on sophisticated model designs and/or extra fine-grained annotations, which, to some extent, increase the difficulty in algorithm implementation and data collection. In this work, we propose an easy-to-implement strong baseline for irregular scene text recognition, using off-the-shelf neural network components and only word-level annotations. It is composed of a $31$-layer ResNet, an LSTM-based encoder-decoder framework and a 2-dimensional attention module. Despite its simplicity, the proposed method is robust and achieves state-of-the-art performance on both regular and irregular scene text recognition benchmarks. Code is available at: https://tinyurl.com/ShowAttendRead

研究动机与目标

  • 在自然场景中解决形状、朝向和扭曲差异很大的非规则文本识别问题。
  • 使用现成组件(ResNet、LSTM、注意力)开发一个简单的端到端可训练基线,且无需字符级监督。
  • 证明2D注意力机制在没有显式矫正的情况下也能稳健定位非规则布局中的字符。
  • 在非规则文本基准上显示出改进的性能,同时在常规文本数据集上保持竞争力。

提出的方法

  • 一个31层的ResNet从调整为固定高度但宽度可变的输入图像中提取2D特征图。
  • 一个两层LSTM编码器对特征图列进行处理(进行垂直方向最大池化),以生成整体图像表示。
  • 一个两层LSTM解码器在每一步使用基于2D注意力的瞥视来生成字符序列。
  • 一个定制的2D注意力模块对2D特征图进行注意力运算,并引入邻域耦合,使得每个解码字符可以进行局部特征选择(通过卷积实现)。
  • 训练仅使用单词级标注(不含字符级监督),并利用交叉熵损失进行端到端优化;数据集结合了合成数据和公开的真实数据集。
  • 在解码阶段使用束搜索(top-5)以提高识别准确度。

实验结果

研究问题

  • RQ1在自然场景中的非规则文本是否可以在不进行矫正或字符级监督的情况下被有效识别?
  • RQ2在ResNet派生特征上的2D注意力机制是否为非规则文本布局提供稳健的字符定位?
  • RQ3所提出的基线在非规则文本基准上的表现与当前方法相比如何,在常规文本数据集上的表现又如何?

主要发现

  • 所提出的基于2D注意力的基线在非规则文本基准(IC15、SVTP、CT80、COCO-Text)上无需字符级注释即可达到最先进的结果。
  • 在常规文本数据集(IIIT5K、SVT、IC13)上也取得了具有竞争力的结果,在各种设置下通常是最佳或第二最佳。
  • 消融研究表明,带有邻域信息的2D注意力优于传统的2D和1D注意力变体,维持更大规模的CNN/LSTM容量对准确性很重要。
  • 该模型从头开始使用合成数据和公开真实数据即可端到端训练,推理速度大约每个补丁15 ms。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。