Skip to main content
QUICK REVIEW

[论文解读] STN-OCR: A single Neural Network for Text Detection and Text Recognition

Christian Bartz, Haojin Yang|arXiv (Cornell University)|Jul 27, 2017
Handwritten Text Recognition Techniques参考文献 23被引用 50
一句话总结

STN-OCR 提供一个单一的端到端深度神经网络,使用空间变换器作为基于注意力的定位模块,联合检测与识别自然场景中的文本,采用半监督训练。

ABSTRACT

Detecting and recognizing text in natural scene images is a challenging, yet not completely solved task. In re- cent years several new systems that try to solve at least one of the two sub-tasks (text detection and text recognition) have been proposed. In this paper we present STN-OCR, a step towards semi-supervised neural networks for scene text recognition, that can be optimized end-to-end. In contrast to most existing works that consist of multiple deep neural networks and several pre-processing steps we propose to use a single deep neural network that learns to detect and recognize text from natural images in a semi-supervised way. STN-OCR is a network that integrates and jointly learns a spatial transformer network, that can learn to detect text regions in an image, and a text recognition network that takes the identified text regions and recognizes their textual content. We investigate how our model behaves on a range of different tasks (detection and recognition of characters, and lines of text). Experimental results on public benchmark datasets show the ability of our model to handle a variety of different tasks, without substantial changes in its overall network structure.

研究动机与目标

  • 推动端到端的场景文本识别,而不需要单独的检测/识别流水线。
  • 提出一个单一的 DNN,使用循环空间变换器联合学习文本定位与识别。
  • 展示一种半监督训练,其中文本定位通过对识别损失的反向传播来学习。
  • 在标准场景文本基准上,在检测与识别任务上展示具有竞争力或最先进的性能。
  • 为研究社区提供实用的训练指导并发布代码/模型。

提出的方法

  • 整合一个定位网络,通过循环空间变换器预测用于采样文本区域的仿射变换。
  • 使用基于 CNN 的识别网络(ResNet 变体)从 N 个提取的裁剪区域中识别文本。
  • 应用双线性采样进行可微分的基于网格的区域提取,从而实现端到端反向传播。
  • 在识别中,使用按位置的固定长度 Softmax 分类器或 CTC 进行序列预测。
  • 端到端训练模型,仅用图像级内容的文本标签,且不提供文本定位的地面真值。
  • 建议采用两阶段预训练策略(先用 SGD 进行预训练,随后使用 Adam 进行微调)以在更具挑战性的任务上改善收敛。

实验结果

研究问题

  • RQ1单个多任务神经网络是否能够端到端地同时学习检测文本区域和识别自然场景中的文本?
  • RQ2将空间变换器作为学习的注意力机制整合是否能改善场景文本检测与识别的端到端训练和性能?
  • RQ3在检测多行文本时,哪些有效的训练策略可以使此类模型收敛?
  • RQ4由识别损失驱动的半监督定位与完全监督或手工设计的流水线在标准基准上的对比如何?

主要发现

  • 所提出的 STN-OCR 网络在若干标准场景文本基准上实现端到端方式的接近甚至等同于最先进的性能。
  • 该系统可通过将识别损失通过空间变换器反向传播来学习文本定位,且无需显式的定位标签。
  • 两阶段训练协议(先在较简单任务上使用 SGD,然后切换到 Adam 进行微调)提升了收敛性与定位质量。
  • 在定位和识别阶段都使用基于 ResNet 的骨干网络,可获得更好的梯度流和识别性能。
  • 在鲁棒阅读数据集(ICDAR 2013, SVT, IIIT5K)上,该方法在标准后处理之外不需要外部词库即可达到具有竞争力的识别准确率。
  • 在 FSNS 数据集上的初步实验表明,该模型可以定位并识别单个词,尽管完整的多行文本检测仍然具有挑战性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。