[论文解读] An end-to-end TextSpotter with Explicit Alignment and Attention
本文提出了一种端到端的文本定位模型,通过一种新颖的文本对齐层和字符级别的注意力机制,联合检测并识别自然图像中的文本。通过显式建模字符的空间位置并共享检测与识别之间的特征,该模型在 ICDAR2015 上实现了最先进性能,将 F-measure 提升至 0.82(强词典),相较于之前工作的 0.54 显著提高。
Text detection and recognition in natural images have long been considered as two separate tasks that are processed sequentially. Training of two tasks in a unified framework is non-trivial due to significant dif- ferences in optimisation difficulties. In this work, we present a conceptually simple yet efficient framework that simultaneously processes the two tasks in one shot. Our main contributions are three-fold: 1) we propose a novel text-alignment layer that allows it to precisely compute convolutional features of a text instance in ar- bitrary orientation, which is the key to boost the per- formance; 2) a character attention mechanism is introduced by using character spatial information as explicit supervision, leading to large improvements in recognition; 3) two technologies, together with a new RNN branch for word recognition, are integrated seamlessly into a single model which is end-to-end trainable. This allows the two tasks to work collaboratively by shar- ing convolutional features, which is critical to identify challenging text instances. Our model achieves impressive results in end-to-end recognition on the ICDAR2015 dataset, significantly advancing most recent results, with improvements of F-measure from (0.54, 0.51, 0.47) to (0.82, 0.77, 0.63), by using a strong, weak and generic lexicon respectively. Thanks to joint training, our method can also serve as a good detec- tor by achieving a new state-of-the-art detection performance on two datasets.
研究动机与目标
- 解决在优化难度不同的情况下,如何在单一统一框架中联合训练文本检测与识别的挑战。
- 克服传统串行流水线因误差传播和检测与识别之间缺乏特征共享而带来的局限性。
- 通过在解码过程中显式建模字符的空间位置,提升对多方向、任意方向文本的识别准确率。
- 通过引入强空间监督和专用对齐机制,实现端到端训练并确保稳定收敛。
- 通过联合优化和特征共享,在检测与识别基准上均实现最先进性能。
提出的方法
- 引入一种文本对齐层,显式计算任意方向文本实例的卷积特征,减少背景和无关特征的干扰。
- 设计一种字符注意力机制,利用字符的显式空间坐标作为监督信号,在 RNN 解码过程中引导注意力,提升对齐效果并减少误识别。
- 将基于 RNN 的识别分支集成到检测框架(如 Faster R-CNN 风格)中,实现共享卷积特征的端到端训练。
- 在检测与识别之间应用共享特征的联合训练,实现相互提升,并增强对复杂背景及小尺寸/倾斜文本的鲁棒性。
- 采用多尺度推理和基于词典的评估协议(强、弱、通用)以验证泛化能力和鲁棒性。
- 利用合成数据(如 VGG 合成数据)和真实数据(ICDAR2015/2013),通过仔细的数据划分和评估协议,确保性能比较的可靠性。
实验结果
研究问题
- RQ1统一的深度学习框架能否通过共享特征联合优化文本检测与识别,从而同时提升两个任务的性能?
- RQ2通过字符坐标提供的显式空间监督,如何改善端到端文本定位中基于注意力的识别性能?
- RQ3所提出的文本对齐层在处理多方向文本特征方面,相较于标准 RoI 池化方法在多大程度上表现更优?
- RQ4检测与识别的联合训练是否能减少误差累积,并提升对具有挑战性的文本实例的鲁棒性?
- RQ5该模型能否在推理阶段不依赖外部词典的情况下,同时在检测与识别基准上实现最先进性能?
主要发现
- 所提出的文本对齐层在 ICDAR2015 上将识别准确率从标准 RoI 池化的 60.7% 提升至 67.6%,证明其在多方向文本特征提取方面具有优越性。
- 结合显式空间监督的字符注意力机制在 VGG 合成数据上实现了 95% 的字符级准确率,优于传统基于注意力的模型(93%)。
- 联合训练使 ICDAR2015 上检测的 F-measure 提升了 3 个百分点(达到 0.82),同时显著改善了识别性能。
- 该模型在 ICDAR2013 和 ICDAR2015 上均实现了最先进检测性能,在端到端和单词定位评估协议下均优于先前方法。
- 在 ICDAR2015 上,该模型在端到端评估下实现了 0.82(强)、0.77(弱)和 0.63(通用)的 F-measure,显著超越此前结果(0.54、0.77 和 0.63)。
- 定性结果表明,该方法能成功检测并识别小尺寸、倾斜及低对比度的文本实例。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。