[论文解读] Scene Text Recognition with Sliding Convolutional Character Models
一个基于滑动窗口的 CNN 端到端场景文本识别方法,使用卷积字符模型和 CTC 转录来检测和识别字符,无需字符分割或词典。
Scene text recognition has attracted great interests from the computer vision and pattern recognition community in recent years. State-of-the-art methods use concolutional neural networks (CNNs), recurrent neural networks with long short-term memory (RNN-LSTM) or the combination of them. In this paper, we investigate the intrinsic characteristics of text recognition, and inspired by human cognition mechanisms in reading texts, we propose a scene text recognition method with character models on convolutional feature map. The method simultaneously detects and recognizes characters by sliding the text line image with character models, which are learned end-to-end on text line images labeled with text transcripts. The character classifier outputs on the sliding windows are normalized and decoded with Connectionist Temporal Classification (CTC) based algorithm. Compared to previous methods, our method has a number of appealing properties: (1) It avoids the difficulty of character segmentation which hinders the performance of segmentation-based recognition methods; (2) The model can be trained simply and efficiently because it avoids gradient vanishing/exploding in training RNN-LSTM based models; (3) It bases on character models trained free of lexicon, and can recognize unknown words. (4) The recognition process is highly parallel and enables fast recognition. Our experiments on several challenging English and Chinese benchmarks, including the IIIT-5K, SVT, ICDAR03/13 and TRW15 datasets, demonstrate that the proposed method yields superior or comparable performance to state-of-the-art methods while the model size is relatively small.
研究动机与目标
- 通过模仿人类阅读,使用滑动窗口和凝视来实现鲁棒的场景文本识别。
- 开发一个在滑动窗口上运行的卷积字符模型,用于检测和识别字符。
- 在弱标注的单词图像上端到端训练,无需字符级注释。
- 利用 CTC 转录将每个窗口的预测映射成最终文本序列。
- 在英汉场景文本基准上展示与紧凑模型竞争的性能。
提出的方法
- 使用三部分框架:滑动窗口特征提取、卷积字符分类器和转录层。
- 采用一个 15 层的 CNN 作为字符模型,输入 32x32 的灰度窗口,输出多类字符分布。
- 以 Ground-truth 序列的负对数似然对网络进行端到端训练,避免显式的字符级标注。
- 应用 Connectionist Temporal Classification (CTC) 将每个窗口的输出映射到无对齐的转录。
- 解码可以是朴素解码(最佳路径)、词典解码,或基于语言模型的解码,结合包含 LM 的改进 CTC beams search 和剪枝策略。
- 支持端到端训练和每个窗口分类的并行化以提高效率。
实验结果
研究问题
- RQ1滑动窗口字符模型结合 CTC 是否能在无字符级分割的情况下有效识别场景文本?
- RQ2与最先进方法相比,该方法在英汉场景文本基准上的表现如何?
- RQ3多尺度滑动窗口和语言模型整合对识别准确性和速度有何影响?
- RQ4模型能否在无词典的情况下仍在各数据集上保持竞争性准确度?
- RQ5模型可以做多小而仍保持性能吗,是否适合移动设备部署?
主要发现
- 该方法在英语基准(IC03、IC13、IIIT5k、SVT)上实现有竞争力或优于方法,同时基线模型参数大约为 8.1M(可通过残差网络进一步减少)。
- 多尺度(n=3)的滑动窗口版本优于单尺度,通过捕捉更多上下文来提升识别。
- 在朴素解码下,该方法的准确率可与最先进方法相当,而在词典解码或 LM 解码下,在某些数据集(例如 IIIT5k)上甚至可以超过它们。
- 中文 TRW15 结果显示相对于 prior 方法有显著提升,例如 TRW15-T 的 LM 精度为 81.2% 和 TRW15-A 的 LM 为 81.7%(基模型),表明强跨脚本泛化。
- 每样本推理时间非常高效(在测试硬件上,朴素解码约 0.015s/样本)。
- 在合成数据(Synth、Synth-Ch)上进行训练使在真实世界数据集上实现强零-shot 性能,并且基本设置保持无词典和无语言模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。