QUICK REVIEW

[论文解读] Scene Text Recognition from Two-Dimensional Perspective

Minghui Liao, Jian Zhang|arXiv (Cornell University)|Sep 18, 2018

Handwritten Text Recognition Techniques参考文献 41被引用 36

一句话总结

本文提出字符注意力全卷积网络（CA-FCN），一种二维场景文本识别模型，通过字符级注意力机制的语义分割框架，在像素级别预测字符。与基于一维序列的方法不同，CA-FCN可直接处理任意形状文本，在不规则文本上实现最先进性能，同时对检测阶段不精确的文本定位边界框表现出更强的鲁棒性。

ABSTRACT

Inspired by speech recognition, recent state-of-the-art algorithms mostly consider scene text recognition as a sequence prediction problem. Though achieving excellent performance, these methods usually neglect an important fact that text in images are actually distributed in two-dimensional space. It is a nature quite different from that of speech, which is essentially a one-dimensional signal. In principle, directly compressing features of text into a one-dimensional form may lose useful information and introduce extra noise. In this paper, we approach scene text recognition from a two-dimensional perspective. A simple yet effective model, called Character Attention Fully Convolutional Network (CA-FCN), is devised for recognizing the text of arbitrary shapes. Scene text recognition is realized with a semantic segmentation network, where an attention mechanism for characters is adopted. Combined with a word formation module, CA-FCN can simultaneously recognize the script and predict the position of each character. Experiments demonstrate that the proposed algorithm outperforms previous methods on both regular and irregular text datasets. Moreover, it is proven to be more robust to imprecise localizations in the text detection phase, which are very common in practice.

研究动机与目标

解决一维序列方法在场景文本识别中的局限性，这些方法未能考虑图像中文本的真实二维空间分布。
提升在不规则和弯曲文本上的识别性能，因为传统方法因将特征压缩为一维序列而难以应对。
增强对检测阶段不精确文本定位的鲁棒性，这是现实世界中常见但以往研究常被忽视的挑战。
开发一种可自然处理任意文本形状的方法，无需校正或复杂后处理。
通过可学习的词形成模块，实现端到端识别，联合预测字符类别与空间位置。

提出的方法

CA-FCN采用以VGG-16为骨干网络的全卷积网络，从输入图像中提取多尺度特征。
在每个空间位置应用字符注意力机制，以优化单个字符的特征表示，提升定位与分类性能。
模型执行像素级字符分类，将文本识别视为二维空间中的语义分割任务，而非序列生成。
通过将同类字符的空间相邻区域分组，词形成模块从预测的字符图中重建单词。
引入可变形卷积层，自适应调整感受野，增强对不规则形状文本的特征表示能力。
网络使用合成数据中的字符级标注进行训练，避免在真实数据集中进行人工标注。

实验结果

研究问题

RQ1将场景文本识别建模为2D语义分割任务，是否相比1D序列建模能提升在不规则和弯曲文本上的性能？
RQ2在存在噪声或不精确的文本检测边界框时，所提出的2D方法与序列模型相比在鲁棒性方面表现如何？
RQ3字符级注意力与可变形卷积的结合在多大程度上提升了识别准确率与定位保真度？
RQ42D预测框架是否降低了对场景图像中背景噪声与空间失真的敏感性？
RQ5该方法是否能在无需显式校正或后处理的情况下，有效泛化至规则与不规则文本？

主要发现

CA-FCN在常规文本识别基准（IC15、ICDAR2013）和不规则文本基准（IC17、IIIT）上均达到最先进性能。
在IIIT数据集上，CA-FCN在标准划分上达到91.4%的准确率，而在扩展的IIIT-p数据集上仅出现2.6%的性能下降，相比之下CRNN为6.4%。
在IIIT-p上，CA-FCN的性能差距为2.9%，在IIIT-r-p上为4.8%，显著优于CRNN（分别为6.4%和8.3%），尤其在定位噪声下表现更优。
消融实验证实，注意力模块与可变形卷积均能提升准确率与鲁棒性，两者结合时性能最佳。
由于在2D空间中预测字符，该方法对背景噪声与空间失真更具鲁棒性，避免了将噪声编码进1D特征序列。
词形成模块成功从2D字符图中重建单词，实现了字符类别与空间位置的联合预测。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。