[论文解读] A Simple and Robust Convolutional-Attention Network for Irregular Text Recognition.
该论文提出了一种用于不规则场景文本识别的简单非循环卷积注意力网络,通过自注意力机制直接将2D CNN特征映射到序列解码器,避免了序列转换或RNN的使用。该模型在仅使用词级标注的情况下,实现了SOTA或具有竞争力的性能,且训练和推理速度比基于RNN的方法快1.7倍至10倍。
Reading irregular scene text of arbitrary shape in natural images is still a challenging problem, despite the progress made recently. Many existing approaches incorporate sophisticated network structures to handle various shapes, use extra annotations for stronger supervision, or employ hard-to-train recurrent neural networks for sequence modeling. In this work, we propose a simple yet robust approach for scene text recognition. With no need to convert input images to sequence representations, we directly connect two-dimensional CNN features to an attention-based sequence decoder. As no recurrent module is adopted, our model can be trained in parallel. It achieves 1.7x to 10x acceleration to backward pass and 1.4x to 9x acceleration to forward pass, compared with the RNN counterparts. The proposed model is trained with only word-level annotations. With this simple design, our method achieves state-of-the-art or competitive recognition performance on the evaluated regular and irregular scene text benchmark datasets.
研究动机与目标
- 解决自然场景图像中不规则形状文本识别的挑战。
- 消除对复杂网络架构或序列到序列转换的依赖。
- 避免使用训练缓慢且难以优化的循环神经网络(RNN)。
- 在仅使用词级标注的情况下实现高性能,避免昂贵的实例级或序列级监督。
- 开发一种兼具高准确率与高效率的模型,实现更快的训练和推理速度。
提出的方法
- 模型使用二维卷积神经网络(CNN)从输入图像中提取空间特征。
- 直接将2D CNN特征连接到类似Transformer的自注意力解码器,无需展平或序列转换。
- 注意力机制使模型能够关注相关空间区域以生成序列。
- 解码器通过仅使用词级标注的交叉熵损失进行端到端训练。
- 由于未使用RNN,前向和反向传播均可实现完全并行化。
- 架构简洁,未引入CRF或编码器上的注意力机制等复杂组件。
实验结果
研究问题
- RQ1非循环注意力解码器是否能在不进行序列转换的情况下,在不规则场景文本识别任务上实现具有竞争力的性能?
- RQ2在相同监督水平下,与基于RNN的模型相比,该模型的训练和推理速度如何?
- RQ3仅使用词级标注训练的模型是否能与采用更强监督方法的模型性能相当或更优?
- RQ4从2D特征到序列输出的直接映射是否能提升对不规则文本形状的鲁棒性?
- RQ5在不规则文本场景中,模型简洁性与识别准确率之间的权衡如何?
主要发现
- 所提模型在常规和不规则场景文本基准上均实现了SOTA或具有竞争力的性能。
- 与基于RNN的模型相比,该模型在反向传播中实现了1.7倍至10倍的速度提升,在前向传播中实现了1.4倍至9倍的速度提升。
- 模型仅使用词级标注进行训练,无需实例级或序列级标注。
- 由于未使用RNN,实现了完全并行化,显著缩短了训练和推理时间。
- 该模型在无需复杂架构组件的情况下,对任意形状文本表现出强鲁棒性。
- 实验结果证实,简单的CNN-注意力架构在速度和准确率方面均优于更复杂的基于RNN的模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。