Skip to main content
QUICK REVIEW

[论文解读] Recursive Recurrent Nets with Attention Modeling for OCR in the Wild

Chen‐Yu Lee, Simon Osindero|arXiv (Cornell University)|Mar 9, 2016
Handwritten Text Recognition Techniques参考文献 49被引用 64
一句话总结

本文提出 R²AM,一种用于无词典场景文本识别的递归循环神经网络,结合注意力建模。它利用递归卷积神经网络(CNN)实现高效特征提取,使用循环神经网络(RNN)进行隐式语言建模,并通过软注意力机制聚焦于相关图像区域,相较于之前最先进方法,在 Street View Text 上实现 9% 的绝对性能提升,在 ICDAR 2013 上实现 8.2% 的提升。

ABSTRACT

We present recursive recurrent neural networks with attention modeling (R$^2$AM) for lexicon-free optical character recognition in natural scene images. The primary advantages of the proposed method are: (1) use of recursive convolutional neural networks (CNNs), which allow for parametrically efficient and effective image feature extraction; (2) an implicitly learned character-level language model, embodied in a recurrent neural network which avoids the need to use N-grams; and (3) the use of a soft-attention mechanism, allowing the model to selectively exploit image features in a coordinated way, and allowing for end-to-end training within a standard backpropagation framework. We validate our method with state-of-the-art performance on challenging benchmark datasets: Street View Text, IIIT5k, ICDAR and Synth90k.

研究动机与目标

  • 解决在非约束自然图像中无词典场景文本识别的挑战。
  • 克服先前方法依赖手工设计特征、固定词典或 N-gram 模型的局限性。
  • 开发一个端到端可训练的系统,联合学习视觉特征与序列语言模式。
  • 提升对低对比度、变形及杂乱文本在真实场景中的鲁棒性。

提出的方法

  • 采用参数共享的递归卷积神经网络(CNN),在参数预算受限下高效提取图像特征。
  • 在递归 CNN 特征之上使用循环神经网络(RNN),隐式学习字符级语言模型,无需显式定义 N-gram。
  • 集成软注意力机制,在序列解码过程中动态选择相关图像特征,实现上下文感知的特征利用。
  • 使用标准反向传播算法端到端训练整个架构,实现视觉与序列组件的联合优化。
  • 采用字符级 RNN 与注意力机制(RNN_Atten)作为最终解码器,实验表明其优于其他 RNN 变体。
  • 避免使用 LSTM 记忆单元,因平均词长约为 8 个字符,可降低复杂度而不损失性能。

实验结果

研究问题

  • RQ1与标准 CNN 相比,递归 CNN 是否能提升场景文本识别中的特征提取效率与性能?
  • RQ2基于 RNN 的语言模型是否能隐式捕捉字符级序列依赖关系,而无需依赖人工定义的 N-gram?
  • RQ3软注意力机制是否通过在序列生成过程中选择性聚焦于相关图像区域,从而提升识别准确率?
  • RQ4所提出的端到端框架是否能在非约束与约束识别设置下均优于先前最先进方法?
  • RQ5该模型在包含遮挡或失真情况的未见单词及真实世界复杂场景图像上,泛化能力如何?

主要发现

  • R²AM 框架在 Street View Text(SVT)数据集上相较之前最先进方法实现 9% 的绝对准确率提升。
  • 在 ICDAR 2013(IC13)基准上,该方法实现 8.2% 的绝对性能提升,创下无词典场景文本识别新最先进水平。
  • 通过隐式语言建模,模型成功恢复缺失或遮挡的字符(例如 PARK、BURBANK、SAN、STAR 中的缺失部分)。
  • 尽管专为无词典识别设计,该系统在未见词汇上泛化良好,且在约束设置下仍表现具有竞争力。
  • 消融实验证实,所有组件——递归 CNN、RNN 语言建模与软注意力机制——对性能均有显著贡献。
  • 该方法在 IIIT5k 和 Synth90k 上取得优异结果,且首次在文献中报告了 IIIT5k 上的无词典识别结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。