QUICK REVIEW

[论文解读] Arbitrarily-Oriented Text Recognition.

Zhanzhan Cheng, Xuyang Liu|arXiv (Cornell University)|Nov 12, 2017

Handwritten Text Recognition Techniques参考文献 36被引用 14

一句话总结

本文提出任意方向网络（AON），一种深度学习模型，通过基于注意力的解码器实现自然图像中任意方向、弯曲或透视文本的端到端识别。该方法在多个基准测试中达到最先进性能，在CUTE80、SVT-Perspective和ICDAR等数据集上显著优于先前方法。

ABSTRACT

Recognizing text from natural images is still a hot research topic in computer vision due to its various applications. Despite the enduring research of several decades on optical character recognition (OCR), recognizing texts from natural images is still a challenging task. This is because scene texts are often in irregular arrangements (curved, arbitrarily-oriented or seriously distorted), which have not yet been well addressed in the literature. Existing methods on text recognition mainly work with regular (horizontal and frontal) texts and cannot be trivially generalized to handle irregular texts. In this paper, we develop the arbitrary orientation network (AON) to capture the deep features of irregular texts (e.g. arbitrarily-oriented, perspective or curved), which are combined into an attention-based decoder to generate character sequence. The whole network can be trained end-to-end by using only images and word-level labels. Extensive experiments on various benchmarks, including the CUTE80, SVT-Perspective, IIIT5k, SVT and ICDAR datasets, show that the proposed AON-based method substantially outperforms the existing methods.

研究动机与目标

解决自然场景图像中不规则方向、弯曲或透视文本的识别挑战。
克服现有OCR方法仅限于水平和正交文本的局限性。
开发一个统一的、可端到端训练的框架，利用深度特征和注意力机制实现准确的序列生成。
仅使用图像和词级标签即可实现有效识别，无需边界框标注或复杂后处理。

提出的方法

提出任意方向网络（AON）以从包含弯曲或透视失真区域的不规则文本区域中提取深度特征。
集成基于注意力的解码器，从提取的特征中生成字符序列，实现特征与输出之间的灵活对齐。
仅使用图像和词级标签对整个网络进行端到端训练，避免对实例级标注的需求。
利用对任意方向和几何失真具有鲁棒性的空间特征表示。
使用可微分注意力机制，在解码过程中动态聚焦于相关特征区域。
通过空间特征学习设计架构，使其对文本方向和透视失真保持不变。

实验结果

研究问题

RQ1深度学习模型能否有效识别自然图像中任意方向、弯曲或受透视失真影响的文本？
RQ2与传统序列生成方法相比，端到端可训练的基于注意力的解码器在不规则文本上的表现如何？
RQ3仅使用图像和词级标签进行训练的模型，在无边界框监督的情况下，对复杂文本布局的泛化能力如何？
RQ4与现有方法相比，所提出的AON框架在标准不规则文本识别基准测试中的性能提升程度如何？

主要发现

基于AON的方法在CUTE80数据集上达到最先进性能，显著优于先前方法，在识别弯曲和任意方向文本方面表现突出。
在SVT-Perspective数据集上，该模型展现出对透视失真的强泛化能力，准确率超过现有方法。
该方法在IIIT5k和SVT数据集上实现了高识别准确率，证实其在多样化文本布局下的鲁棒性。
仅使用词级标签进行端到端训练，可有效实现特征学习和序列生成，无需实例级标注。
基于注意力的解码器能有效处理可变长度输出，并在严重失真的文本上仍保持高精度。
大量实验证明，AON框架在多个基准测试中持续优于现有方法，验证了其有效性和泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。