[论文解读] Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation
一种统一的基于卷积神经网络的检测器,通过角点定位文本,并使用位置敏感分割对候选框进行打分,从而在没有繁重后处理的情况下,实现对任意方向、长度较长以及多脚本文本的鲁棒检测。
Previous deep learning based state-of-the-art scene text detection methods can be roughly classified into two categories. The first category treats scene text as a type of general objects and follows general object detection paradigm to localize scene text by regressing the text box locations, but troubled by the arbitrary-orientation and large aspect ratios of scene text. The second one segments text regions directly, but mostly needs complex post processing. In this paper, we present a method that combines the ideas of the two types of methods while avoiding their shortcomings. We propose to detect scene text by localizing corner points of text bounding boxes and segmenting text regions in relative positions. In inference stage, candidate boxes are generated by sampling and grouping corner points, which are further scored by segmentation maps and suppressed by NMS. Compared with previous methods, our method can handle long oriented text naturally and doesn't need complex post processing. The experiments on ICDAR2013, ICDAR2015, MSRA-TD500, MLT and COCO-Text demonstrate that the proposed algorithm achieves better or comparable results in both accuracy and efficiency. Based on VGG16, it achieves an F-measure of 84.3% on ICDAR2015 and 81.5% on MSRA-TD500.
研究动机与目标
- 推动对任意方向和变化纵横比的场景文本进行鲁棒检测。
- 结合角点定位与基于区域的分割,以提高准确性和效率。
- 通过使用分割图对候选框进行打分,避免繁重的后处理。
- 实现端到端训练,以联合优化检测和分割任务。
提出的方法
- 通过多尺度CNN骨干網络的默认框检测角点(左上、右上、右下、左下)。
- 通过采样并将检测到的角点聚合成候选边框,生成旋转文本 proposal。
- 使用位置敏感分割图和旋转位置敏感ROI平均池化对候选框进行打分。
- 使用角点检测、定位和分割的联合损失进行训练(L = L_conf/N_c + λ1 L_loc/N_c + λ2 L_seg/N_s)。
- 在评分阶段使用旋转位置敏感ROI池化模块,以处理任意方向。
- 在SynthText预训练后,进行目标数据集的微调,应用端到端训练。
实验结果
研究问题
- RQ1将角点定位与基于区域的分割结合是否能超越直接回归或纯分割方法在多方向文本上的表现?
- RQ2所提出的旋转位置敏感ROI池化如何影响旋转文本 proposal 的打分?
- RQ3在各基准上的角点检测与分割联合优化对准确性和速度的影响如何?
- RQ4该方法在长文本行和多脚本文本场景下是否能够在无需繁重后处理的情况下实现可扩展性?
主要发现
| 数据集 | F值 |
|---|---|
| ICDAR2015 | 84.3% |
| MSRA-TD500 | 81.5% |
| MLT | 72.4% |
- 使用所提出的方法在 ICDAR2015 上的 F-measure 为 84.3%,在 MSRA-TD500 为 81.5%,在 MLT 为 72.4%。
- 单尺度 ICDAR2015 结果:使用我们的方法 F-measure 为 80.7%(多尺度为 84.3%)。
- 长向文本和多语种文本检测在 MSRA-TD500 上达到最先进水平,在 MLT 与 COCO-Text 上具有竞争力的结果。
- 在 Titan X GPU 上,方法以每秒超过 10.4 张图像(512x512)进行处理,表明具有竞争力的效率。
- 基线的回归检测器在 ICDAR2015 上的 F-measure 约为 53.3,低于角点方法的 80.7。
- 该方法具有强泛化能力,在 COCO-Text 上未在 COCO-Text 数据集上训练的情况下达到 42.5% 的 F-measure。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。