QUICK REVIEW

[论文解读] Reading Scene Text in Deep Convolutional Sequences

Pan He, Weilin Huang|arXiv (Cornell University)|Jun 14, 2015

Handwritten Text Recognition Techniques参考文献 38被引用 38

一句话总结

该论文提出深度文本循环网络（DTRN），一种序列标注方法，通过从单词图像中生成深度卷积特征的有序序列来读取场景文本，无需字符分割。利用LSTM建模上下文依赖关系，DTRN在SVT和IIIT5k数据集上达到最先进性能，分别实现93.5%和94.0%的准确率，同时端到端处理未知词和任意字符串，无需后处理或语言模型。

ABSTRACT

We develop a Deep-Text Recurrent Network (DTRN) that regards scene text reading as a sequence labelling problem. We leverage recent advances of deep convolutional neural networks to generate an ordered high-level sequence from a whole word image, avoiding the difficult character segmentation problem. Then a deep recurrent model, building on long short-term memory (LSTM), is developed to robustly recognize the generated CNN sequences, departing from most existing approaches recognising each character independently. Our model has a number of appealing properties in comparison to existing scene text recognition methods: (i) It can recognise highly ambiguous words by leveraging meaningful context information, allowing it to work reliably without either pre- or post-processing; (ii) the deep CNN feature is robust to various image distortions; (iii) it retains the explicit order information in word image, which is essential to discriminate word strings; (iv) the model does not depend on pre-defined dictionary, and it can process unknown words and arbitrary strings. Codes for the DTRN will be available.

研究动机与目标

解决现有场景文本识别中字符级分割与独立分类方法的局限性。
利用词级上下文信息，提升在模糊或失真文本图像中的鲁棒性。
消除对预定义词典的依赖，实现对未知或任意词串的识别。
构建一个端到端可训练的系统，联合优化特征表示与序列标注。
在低分辨率、低对比度及杂乱背景条件下提升识别性能。

提出的方法

DTRN模型通过在单词图像上滑动窗口生成深度CNN特征的有序序列，无需分割即可保留空间顺序。
深度卷积神经网络（CNN）从每个滑动窗口区域提取高层、鲁棒的特征，使表示对图像失真具有不变性。
生成的CNN特征序列被输入长短期记忆（LSTM）网络，以建模字符间的序列依赖关系与上下文信息。
整个系统通过反向传播进行端到端训练，联合优化特征提取与序列标注。
该模型无需字符级标注、语言模型或后处理，可直接预测词串。
通过将单词图像视为空间有序的特征图序列，避免显式字符分割。

实验结果

研究问题

RQ1能否通过利用字符间的上下文信息，在不依赖字符分割的情况下，使深度循环模型有效识别场景文本？
RQ2与独立字符分类相比，将文本识别建模为序列标注问题在模糊或失真单词图像上的性能提升程度如何？
RQ3端到端深度学习模型在无预定义词典的情况下，对未知或任意词串的处理能力在多大程度上得以实现？
RQ4CNN特征的显式顺序在复杂背景中如何促进判别性词表示？
RQ5端到端训练的循环模型能否超越使用独立字符分割、分类与语言模型组件的系统？

主要发现

在SVT数据集上，DTRN达到93.5%的准确率，显著优于DeepFeatures（86.1%）和PhotoOCR（90.4%），尽管其训练数据仅为后者的几分之一。
在IIIT5k数据集上，DTRN在小词典上达到94.0%的准确率，在大词典上达到91.5%，优于Almazan等人提出的整体图像表示方法。
DTRN在SVT上相比PhotoOCR提升3.1%，即使其训练数据量仅为后者的百分之一，且未使用语言模型或后处理。
DTRN在词典规模不断增加时仍保持高性能，而基线方法的准确率显著下降，表明其对词典大小具有鲁棒性。
该模型成功识别了任意和未知词串，包括'AB00d'等复杂情况，证明其在固定词典系统之外的灵活性。
CNN序列中的显式顺序信息对判别能力至关重要，如其在缺乏此类顺序的方法上始终表现出性能优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。