QUICK REVIEW

[论文解读] DeepText: A Unified Framework for Text Proposal Generation and Text Detection in Natural Images

Zhuoyao Zhong, Lianwen Jin|arXiv (Cornell University)|May 24, 2016

Handwritten Text Recognition Techniques参考文献 26被引用 104

一句话总结

DeepText 提出一个端到端的 CNN 框架，联合生成带有 Inception-RPN 的文字区域提案并使用多级 ROI 池化和模糊文字监督进行文本检测，在 ICDAR 2011 和 2013 上取得最先进的 F-measure。

ABSTRACT

In this paper, we develop a novel unified framework called DeepText for text region proposal generation and text detection in natural images via a fully convolutional neural network (CNN). First, we propose the inception region proposal network (Inception-RPN) and design a set of text characteristic prior bounding boxes to achieve high word recall with only hundred level candidate proposals. Next, we present a powerful textdetection network that embeds ambiguous text category (ATC) information and multilevel region-of-interest pooling (MLRP) for text and non-text classification and accurate localization. Finally, we apply an iterative bounding box voting scheme to pursue high recall in a complementary manner and introduce a filtering algorithm to retain the most suitable bounding box, while removing redundant inner and outer boxes for each text instance. Our approach achieves an F-measure of 0.83 and 0.85 on the ICDAR 2011 and 2013 robust text detection benchmarks, outperforming previous state-of-the-art results.

研究动机与目标

在具有多样背景和文本属性多样性的自然场景中，推动稳健的文本检测。
开发一个统一框架，以生成高召回率的词块提案并准确分类/检测文本区域。
在保持高召回的同时，将提案候选对象减少到数百个。
通过模糊文本标注和多级 ROI 池化提升检测精度。
在 ICDAR 2011 和 2013 基准测试上展示最先进的性能。

提出的方法

设计 Inception-RPN，在 Conv5_3 上滑动多尺度、多滤波核，使用带文本特征先验边界框（每个位置 24 个）。
对每个先验框使用分类和回归头，输出文本性分数与细化坐标。
引入模糊文本类别（ATC）标注，以更好地区分文本与非文本提案。
对 Conv4_3 和 Conv5_3 应用多级 ROI 池化（MLRP），融合特征并输入检测头。
端到端训练，使用结合分类和回归项的多任务损失。
实现迭代边界框投票和过滤步骤，以去除每个文本实例的冗余内外部框。

实验结果

研究问题

RQ1是否有一个统一的 CNN 框架，能够为自然场景文本生成数百个高召回的词提案？
RQ2ATC 信息和多级 ROI 池化是否提升文本与非文本的判别和定位？
RQ3迭代边界框投票和后处理在标准基准上如何影响精度和召回？
RQ4DeepText 在 ICDAR 2011 与 2013 强健文本检测基准上的对比性能如何？
RQ5使用共享的 CNN 特征进行联合提案生成与文本检测的端到端训练是否可行？

主要发现

Inception-RPN-TCPB 以数百个提案实现高召回，在某些 IoU 阈值下使用前 300 个提案时的召回率约为 90%。
将 ATC 和多级 ROI 池化（MLRP）结合，提升真正例并降低假阳性（在 ICDAR 2013 基线下 TP 88.74% vs 85.61%，FP 10.38% vs 11.20%）。
使用共享 CNN 特征和多任务损失的端到端训练实现了对提案和检测任务的有效联合优化。
DeepText 在 ICDAR 2011 上实现 0.83 的 F 值，在 ICDAR 2013 上实现 0.85，超越了在相同训练数据约束下的若干先前方法。
在单个 GPU（K40）上每张图像处理时间为 1.7 秒。
迭代边界框投票与过滤减少冗余框并提升精度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。