[论文解读] Scene Text Detection and Recognition: The Deep Learning Era
本综述综合了深度学习如何改变场景文本检测与识别,提出方法、数据集、基准和未来趋势的分类学。
With the rise and development of deep learning, computer vision has been tremendously transformed and reshaped. As an important research area in computer vision, scene text detection and recognition has been inescapably influenced by this wave of revolution, consequentially entering the era of deep learning. In recent years, the community has witnessed substantial advancements in mindset, approach and performance. This survey is aimed at summarizing and analyzing the major changes and significant progresses of scene text detection and recognition in the deep learning era. Through this article, we devote to: (1) introduce new insights and ideas; (2) highlight recent techniques and benchmarks; (3) look ahead into future trends. Specifically, we will emphasize the dramatic differences brought by deep learning and the grand challenges still remained. We expect that this review paper would serve as a reference book for researchers in this field. Related resources are also collected and compiled in our Github repository: https://github.com/Jyouhou/SceneTextPapers.
研究动机与目标
- 总结深度学习带来的场景文本检测与识别的主要变革与进展。
- 回顾该领域使用的数据集、基准和评估协议。
- 分析场景文本理解的现状、挑战及潜在未来趋势。
- 通过整合的综述与资源库为研究人员提供见解与参考资源。
提出的方法
- 将方法分为四类:文本检测、文本识别、端到端系统和辅助方法。
- 描述检测方法从多步流程到单阶段和基于多边形的表示的发展。
- 解释基于CTC和编码器–解码器方法的识别框架,以及对不规则文本进行整形以适配的改进。
- 讨论辅助技术,如合成数据生成和跨数据集评估,以提升学习。
- 总结数据集和评估协议,并就未来研究方向提供展望。
实验结果
研究问题
- RQ1深度学习如何改变场景文本检测与识别的方法学与性能?
- RQ2用于野外环境文本检测与识别的主导架构和表示是什么?
- RQ3当前方法如何处理不规则、弯曲和多方向文本与直文字的区别?
- RQ4哪些数据集、基准和辅助数据支持该领域的进步,以及它们的局限性?
- RQ5场景文本检测与识别的关键开放挑战和未来趋势是什么?
主要发现
- 深度学习通过实现端到端可训练的流程并减少对手工特征的依赖,推动了该领域的变革。
- 检测方法从多步骤、以文本为中心的流程发展为单阶段检测器,以及针对不规则文本的多边形/分割表示。
- 识别方法在很大程度上依赖CTC或编码器–解码器框架,并结合整形技术以处理弯曲/不规则文本。
- 辅助技术,特别是合成数据和跨数据集评估,已加速进展与泛化。
- 对数据集与评估协议的综合评述伴随对未来趋势和研究方向的展望。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。