[论文解读] An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition
本文提出CRNN,一种新型的端到端可训练神经网络,将卷积特征提取、循环序列建模和序列转录统一为单一架构,用于基于图像的序列识别。通过结合CNN与双向LSTM,CRNN在无需字符级标注、分割或固定尺寸输入的情况下,实现了场景文字识别的最先进性能,同时在光学音乐识别任务中也展现出更优的准确性,具有良好的泛化能力。
Image-based sequence recognition has been a long-standing research topic in computer vision. In this paper, we investigate the problem of scene text recognition, which is among the most important and challenging tasks in image-based sequence recognition. A novel neural network architecture, which integrates feature extraction, sequence modeling and transcription into a unified framework, is proposed. Compared with previous systems for scene text recognition, the proposed architecture possesses four distinctive properties: (1) It is end-to-end trainable, in contrast to most of the existing algorithms whose components are separately trained and tuned. (2) It naturally handles sequences in arbitrary lengths, involving no character segmentation or horizontal scale normalization. (3) It is not confined to any predefined lexicon and achieves remarkable performances in both lexicon-free and lexicon-based scene text recognition tasks. (4) It generates an effective yet much smaller model, which is more practical for real-world application scenarios. The experiments on standard benchmarks, including the IIIT-5K, Street View Text and ICDAR datasets, demonstrate the superiority of the proposed algorithm over the prior arts. Moreover, the proposed algorithm performs well in the task of image-based music score recognition, which evidently verifies the generality of it.
研究动机与目标
- 解决现有基于图像的序列识别方法依赖于独立且不可微分的组件(如字符检测器或固定尺寸输入)的局限性。
- 开发一种统一的深度学习框架,能够直接从原始图像输入预测可变长度序列,而无需详细标注。
- 构建一个紧凑高效的模型,使其在多种序列识别任务(包括场景文字与乐谱识别)中均具备良好的泛化能力。
- 消除二值化、分割或尺度归一化等预处理步骤,从而在真实世界图像上实现鲁棒性能。
提出的方法
- CRNN架构集成了三个组件:用于层次化特征学习的卷积层,用于序列建模的双向长短期记忆(BLSTM)层,以及用于序列转导的连接时序分类(CTC)层。
- 网络通过CTC损失进行端到端训练,允许直接从词级标签获得监督,而无需字符级标注。
- 卷积层提取的特征图经过空间池化后输入BLSTM层,以建模视觉特征序列中的长距离依赖关系。
- 通过高度归一化,使模型对输入高度变化具有不变性,从而能够处理任意长度的序列。
- 该架构避免使用全连接层,与标准DCNN相比,显著减小了参数量并提升了效率。
- 该框架在标准基准上应用于场景文字识别,并通过极少的架构修改扩展至光学音乐识别。
实验结果
研究问题
- RQ1统一的深度学习模型是否能够在无需字符级标注或分割的情况下,实现基于图像的序列识别的端到端训练?
- RQ2CNN与RNN的集成在如场景文字与乐谱等可变长度序列识别任务中,如何提升性能?
- RQ3单一架构在不同序列识别领域(包括英文与中文文本、音乐记号)中的泛化能力达到何种程度?
- RQ4缺乏手工设计的预处理步骤(如二值化或分割)是否能提升在真实世界噪声图像上的鲁棒性?
主要发现
- CRNN在IIIT-5K、Street View Text和ICDAR场景文字识别基准上均达到最先进性能,优于依赖独立检测与识别阶段的先前方法。
- 在ICDAR 2015场景文字数据集上,CRNN实现了88.8%的词识别准确率,超越了之前的SOTA结果。
- 在光学音乐识别任务中,CRNN在真实世界乐谱图像上实现了84.0%的片段准确率和0.30的平均编辑距离,显著优于商业系统如Capella Scan和PhotoScore。
- 与标准DCNN相比,该模型显著减少了参数量,从而构建出更紧凑高效的架构,更适合实际部署。
- CRNN对图像失真和背景杂乱具有鲁棒性,其在合成数据与真实世界数据上的优异表现证明了其在商业系统失效场景下的优越性。
- 消融实验证实,CNN与双向LSTM的组合至关重要,且CTC损失有效支持了无需字符级标注的端到端训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。