[论文解读] Text Recognition in the Wild: A Survey
对场景文本识别(STR)的全面综述,详细介绍基本问题、基于深度学习的方法、数据集、评估协议以及未来方向。
The history of text can be traced back over thousands of years. Rich and precise semantic information carried by text is important in a wide range of vision-based application scenarios. Therefore, text recognition in natural scenes has been an active research field in computer vision and pattern recognition. In recent years, with the rise and development of deep learning, numerous methods have shown promising in terms of innovation, practicality, and efficiency. This paper aims to (1) summarize the fundamental problems and the state-of-the-art associated with scene text recognition; (2) introduce new insights and ideas; (3) provide a comprehensive review of publicly available resources; (4) point out directions for future work. In summary, this literature review attempts to present the entire picture of the field of scene text recognition. It provides a comprehensive reference for people entering this field, and could be helpful to inspire future research. Related resources are available at our Github repository: https://github.com/HCIILAB/Scene-Text-Recognition.
研究动机与目标
- 总结场景文本识别(STR)的基本问题与挑战。
- 评估端到端的STR系统及其体系结构变体。
- 整理公开可用的STR数据集、基准和评估协议。
- 突出深度学习在STR中的最新进展并讨论未来方向。
提出的方法
- 将STR方法分为基于分割与非分割(分割自由)两类。
- 描述分割自由流水线中的预处理、特征表示、序列建模和预测阶段。
- 讨论矫正、文本增强和背景去除作为预处理辅助。
- 总结从手工特征到基于深度学习的方法以及端到端系统的演化。
- 提供以资源为导向的综述,含公开数据集、代码和基线。
实验结果
研究问题
- RQ1场景文本识别(定位、校验、检测、分割、识别以及端到端系统)涉及的核心问题和阶段及其独特挑战是什么?
- RQ2端到端STR系统如何随着深度学习而演变,基于分割与非分割方法各自的优缺点是什么?
- RQ3STR的标准数据集、基准和评估协议有哪些,且它们在方法间如何比较?
- RQ4在STR中尚存的未来方向与未解决的问题有哪些,以提升准确性和效率?
主要发现
- 深度学习通过实现自动特征学习和端到端优化,显著提升了STR性能。
- 非分割方法(编码器-解码器结构)在处理不规则文本时变得突出,无需逐字符分割。
- 矫正、TextSR以及背景/前景预处理是在处理畸变和噪声,尤其是不规则文本时重要的预处理组件。
- 存在多样的数据集和评估协议,关于实时性能、可扩展性以及对背景复杂度的鲁棒性仍在持续讨论。
- 该综述为公平方法比较总结出基线,并指向公共资源和代码库以实现可重复研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。