QUICK REVIEW

[论文解读] Robust Scene Text Recognition with Automatic Rectification

Baoguang Shi, Xinggang Wang|arXiv (Cornell University)|Mar 12, 2016

Handwritten Text Recognition Techniques参考文献 40被引用 88

一句话总结

该论文提出 RARE，一种用于鲁棒场景文本识别的深度学习模型，通过使用基于薄板样条（TPS）变换的可微分空间变换网络（STN），自动校正不规则文本，随后通过基于注意力机制的序列识别网络（SRN）进行识别。该端到端可训练模型在 SVT-Perspective 和 CUTE80 等基准测试中达到最先进性能，显著提升了对透视和弯曲文本的识别准确率，且无需提供校正所需的几何真值监督。

ABSTRACT

Recognizing text in natural images is a challenging task with many unsolved problems. Different from those in documents, words in natural images often possess irregular shapes, which are caused by perspective distortion, curved character placement, etc. We propose RARE (Robust text recognizer with Automatic REctification), a recognition model that is robust to irregular text. RARE is a specially-designed deep neural network, which consists of a Spatial Transformer Network (STN) and a Sequence Recognition Network (SRN). In testing, an image is firstly rectified via a predicted Thin-Plate-Spline (TPS) transformation, into a more "readable" image for the following SRN, which recognizes text through a sequence recognition approach. We show that the model is able to recognize several types of irregular text, including perspective text and curved text. RARE is end-to-end trainable, requiring only images and associated text labels, making it convenient to train and deploy the model in practical systems. State-of-the-art or highly-competitive performance achieved on several benchmarks well demonstrates the effectiveness of the proposed model.

研究动机与目标

为解决自然场景中不规则文本（如透视和弯曲文本）的识别挑战，这些文本对标准 OCR 系统而言具有困难性。
开发一种方法，可自动将不规则文本校正为更易读的规则形式，且无需对几何变换进行人工标注。
实现仅使用图像和文本标签监督的端到端训练，联合优化校正与识别过程。
在 SVT-Perspective 和 CUTE80 等具有挑战性的基准上提升识别性能，尤其在无词典和全词典设置下。

提出的方法

该模型结合空间变换网络（STN）与序列识别网络（SRN），其中 STN 对输入图像应用可微分的 TPS 变换以实现校正。
STN 通过卷积神经网络回归控制点坐标，生成 TPS 变换，将不规则文本映射为更规则、水平的布局。
SRN 采用编码器-解码器架构并结合注意力机制，从校正后的特征图中以字符序列形式识别文本。
整个网络通过反向传播进行端到端训练，SRN 的损失梯度反向传播至 STN 的变换参数，无需真实控制点监督。
STN 学习预测最优控制点，将文本行对齐为笔直、可读的格式，从而提升识别性能。
SRN 编码器利用卷积-循环结构，实现对序列特征的有效表示，以支持基于注意力的解码。

实验结果

研究问题

RQ1深度学习模型能否自动将不规则场景文本（如透视和弯曲文本）校正为适合标准识别模型的形式？
RQ2能否在仅使用图像和文本标签对的情况下，实现无几何监督的校正与识别系统端到端训练？
RQ3将可微分 STN 与基于注意力机制的序列识别器结合，是否能相比先前方法提升不规则文本的识别准确率？
RQ4该模型在具有挑战性文本形状的基准（如 SVT-Perspective 和 CUTE80）上表现如何，尤其在无词典设置下？

主要发现

在 SVT-Perspective 数据集上，RARE 在 50 个词的词典设置下达到 91.2% 的准确率，在无词典设置下达到 77.4%，优于先前最先进方法。
在聚焦于弯曲文本的 CUTE80 数据集上，RARE 在无词典设置下达到 59.2% 的准确率，超过 [17]（42.7%）和 [32]（54.9%）。
该模型显著提升了对透视文本的识别准确率，其校正机制有效缓解了强畸变带来的挑战。
定性结果表明，STN 能有效预测文本边界上的控制点，生成的校正图像更利于 SRN 识别。
该模型对多种不规则文本类型（包括透视和弯曲文本）表现出鲁棒性，且无需为每类设计专用结构。
尽管在极端畸变下偶有失败，但端到端训练机制使 STN 能够通过识别损失的反向传播隐式学习到有效的校正策略。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。