QUICK REVIEW

[论文解读] Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks

Hui Li, Peng Wang|arXiv (Cornell University)|Jul 13, 2017

Handwritten Text Recognition Techniques参考文献 27被引用 27

一句话总结

本文提出一种端到端的卷积循环神经网络，通过统一架构联合检测和识别自然场景图像中的文本。通过在检测与识别之间共享卷积特征，并采用可变尺寸的RoI池化结合RNN编码，该模型仅需一次前向传播即可在ICDAR2011和ICDAR2015基准上达到最先进性能，消除了中间处理步骤。

ABSTRACT

In this work, we jointly address the problem of text detection and recognition in natural scene images based on convolutional recurrent neural networks. We propose a unified network that simultaneously localizes and recognizes text with a single forward pass, avoiding intermediate processes like image cropping and feature re-calculation, word separation, or character grouping. In contrast to existing approaches that consider text detection and recognition as two distinct tasks and tackle them one by one, the proposed framework settles these two tasks concurrently. The whole framework can be trained end-to-end, requiring only images, the ground-truth bounding boxes and text labels. Through end-to-end training, the learned features can be more informative, which improves the overall performance. The convolutional features are calculated only once and shared by both detection and recognition, which saves processing time. Our proposed method has achieved competitive performance on several benchmark datasets.

研究动机与目标

解决顺序式文本检测与识别流水线存在的误差传播与冗余计算问题。
通过端到端训练实现检测与识别的联合优化，以提升特征的判别性与整体性能。
设计一种区域特征编码方法，保留文本边界框的宽高比多样性，避免固定尺寸RoI池化带来的失真。
提出一种课程学习策略，逐步从合成数据到真实世界数据进行训练，提升模型对复杂外观的鲁棒性。
在标准基准上实现具有竞争力的性能，且无需依赖词级分组或字符分割。

提出的方法

提出一种统一的深度神经网络架构，集成文本提议网络（TPN）用于生成候选区域，随后使用RNN作为区域特征编码器，以处理可变尺寸的RoI。
引入一种可变尺寸池化机制，根据每个文本提议的宽高比自适应调整池化网格，保留长条形或狭长单词的空间细节。
采用基于注意力机制的RNN解码器进行单词识别，使模型能够聚焦于编码区域特征中的相关部分。
使用联合损失函数进行端到端训练，损失函数包含检测任务（分类与边界框回归）和识别任务（交叉熵损失）。
通过课程学习策略，先在具有大词典和简单背景的合成数据上进行预训练，再在复杂合成数据和真实图像上进行微调。
在检测与识别分支之间共享卷积特征，以减少计算量并提升特征的一致性。

实验结果

研究问题

RQ1端到端训练的统一网络能否联合优化文本检测与识别，相较于顺序式流水线是否能带来性能提升？
RQ2尊重宽高比多样性的可变尺寸RoI池化机制是否在保留文本识别判别性特征方面优于固定尺寸池化？
RQ3从合成数据到真实世界数据逐步训练的课程学习策略是否能提升模型泛化能力与收敛性？
RQ4在检测与识别之间共享卷积特征在多大程度上可降低计算成本并减少误差累积？
RQ5与最先进方法相比，该方法在ICDAR2011和ICDAR2015等标准基准上的表现如何？

主要发现

所提方法“Ours Atten+Vary”在ICDAR2011上达到89.2%的平均精度均值（mAP），在ICDAR2015上达到85.1%，优于先前最先进方法。
当仅使用3个输入尺度时，该模型平均比TextBoxes的召回率高出1.5%（后者使用5个尺度），表明其具有更高的效率与准确性。
可变尺寸池化策略为长单词（如35个部分 vs. 固定尺寸池化的20个部分）保留了更多空间细节，从而提升识别性能。
通过共享特征进行端到端训练可生成更具判别性的特征，从而同时提升检测与识别性能。
即使边界框未完全覆盖单词，模型仍能成功识别，表明其能有效从合成数据中学习到字符级语言模型。
在M40 GPU上，单张600×800图像的推理速度约为0.9秒，而两阶段基线中识别部分耗时0.45秒，凸显了统一方法的高效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。