[论文解读] Synthetic Data for Text Localisation in Natural Images
本文提出 SynthText in the Wild,用于训练一个 Fully-Convolutional Regression Network (FCRN),实现快速端到端的自然图像文本定位,达到最先进的结果并在 GPU 上达到高达 15 FPS。
In this paper we introduce a new method for text detection in natural images. The method comprises two contributions: First, a fast and scalable engine to generate synthetic images of text in clutter. This engine overlays synthetic text to existing background images in a natural way, accounting for the local 3D scene geometry. Second, we use the synthetic images to train a Fully-Convolutional Regression Network (FCRN) which efficiently performs text detection and bounding-box regression at all locations and multiple scales in an image. We discuss the relation of FCRN to the recently-introduced YOLO detector, as well as other end-to-end object detection systems based on deep learning. The resulting detection network significantly out performs current methods for text detection in natural images, achieving an F-measure of 84.2% on the standard ICDAR 2013 benchmark. Furthermore, it can process 15 images per second on a GPU.
研究动机与目标
- 在自然场景中实现稳健的文本识别并通过使用合成数据降低标注成本。
- 开发一个可扩展的合成数据生成流水线,兼顾场景几何与光照。
- 提出一个快速的完全卷积回归网络,用于密集文本定位与边界框回归。
- 在标准基准上评估该方法,并展示文本识别端到端的改进。
提出的方法
- 通过将合成文本叠加在背景图像上并进行几何感知对齐,创建 SynthText in the Wild。
- 在渲染前估算局部深度和表面法线以使文本与场景几何对齐。
- 以适应局部区域颜色的方式渲染文本,并应用泊松混合实现无缝合成。
- 开发一个完全卷积回归网络(FCRN),在密集网格位置预测文本存在性和边界框参数。
- 在80万个合成图像上训练 FCRN,并评估单尺度和多尺度检测。
- 将多尺度 FCRN 输出与后处理过滤器结合,以细化候选并提升召回率。
实验结果
研究问题
- RQ1合成场景文本数据是否能提供足够的真实度来训练自然图像的高性能文本检测器?
- RQ2完全卷积回归网络在文本定位的速度和准确性方面,与基于区域提议的方法相比如何?
- RQ3在合成数据生成中的哪些设计选择(局部区域线索、基于深度的透视、混合)对定位性能影响最大?
- RQ4在自然场景中提升文本定位在多大程度上能提升端到端的文本识别(检测+识别)?
主要发现
- 在 SynthText in the Wild 上训练使文本检测在 ICDAR 2013 及相关基准上达到最先进水平。
- FCRN 检测器明显快于早前方法,在 GPU 上最高可达到每秒 15 张图像。
- 将多尺度 FCRN 检测作为候选并结合后处理,显著提升最大 F 值和平均精度。
- 将先前的检测阶段替换为基于 FCRN 的候选后,端到端文本识别显著提升,包括在 ICDAR 数据集上实现的 8 点 F-measure 增益。
- 基于合成数据的检测器在区域提议阶段实现了大幅加速(大约 45 倍),并在减少最终提议集合的同时维持或提升准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。