Skip to main content
QUICK REVIEW

[论文解读] Multi-Oriented Text Detection with Fully Convolutional Networks

Zheng Zhang, Chengquan Zhang|arXiv (Cornell University)|Apr 14, 2016
Handwritten Text Recognition Techniques参考文献 30被引用 85
一句话总结

本文提出了一种基于全卷积网络(FCN)的框架,用于多方向文本检测,通过自粗到精的方式结合全局显著性图与局部字符组件。通过将FCN预测的文本显著性与基于MSER的组件分组相结合,并利用第二个FCN进行字符中心点预测,该方法在MSRA-TD500、ICDAR2015和ICDAR2013基准上实现了最先进性能,展现出对任意方向、多种语言以及复杂成像条件的鲁棒性。

ABSTRACT

In this paper, we propose a novel approach for text detec- tion in natural images. Both local and global cues are taken into account for localizing text lines in a coarse-to-fine pro- cedure. First, a Fully Convolutional Network (FCN) model is trained to predict the salient map of text regions in a holistic manner. Then, text line hypotheses are estimated by combining the salient map and character components. Fi- nally, another FCN classifier is used to predict the centroid of each character, in order to remove the false hypotheses. The framework is general for handling text in multiple ori- entations, languages and fonts. The proposed method con- sistently achieves the state-of-the-art performance on three text detection benchmarks: MSRA-TD500, ICDAR2015 and ICDAR2013.

研究动机与目标

  • 解决在自然场景图像中检测任意方向文本的挑战。
  • 提升在不同文本风格、语言以及低对比度和透视失真等成像条件下检测的鲁棒性。
  • 有效整合全局(文本块)与局部(字符组件)线索,以改善文本行定位。
  • 通过精确的字符中心点预测减少文本检测中的误报。
  • 开发一种可泛化的框架,适用于水平与多方向文本检测。

提出的方法

  • 训练一个全卷积网络(FCN),以预测像素级显著图,指示文本区域,从而实现整体、粗粒度的文本块检测。
  • 从显著图中分割出文本块,并将其用作后续组件提取的感兴趣区域。
  • 从文本块中提取最大稳定极值区域(MSER),以识别局部字符组件。
  • 利用组件投影估计每个文本行候选的朝向。
  • 通过结合朝向估计与来自组件和显著图的空间约束,生成候选边界框。
  • 训练第二个FCN,以预测每个候选中的字符中心点,用于过滤误报。

实验结果

研究问题

  • RQ1全卷积网络能否有效预测多方向文本检测的全局文本显著性?
  • RQ2如何结合局部字符组件与全局文本块信息,以改善任意方向文本行的检测?
  • RQ3用于字符中心点预测的二级FCN能否有效减少文本行候选中的误报?
  • RQ4所提出的自粗到精框架是否能在多个数据集和文本类型(包括多语言和非水平文本)上实现泛化?
  • RQ5该方法在低对比度、纹理干扰和透视失真等挑战性条件下的鲁棒性如何?

主要发现

  • 在ICDAR2013数据集上,该方法的F-measure达到0.83,优于所有专为水平文本检测设计的先前方法。
  • 在ICDAR2015基准上,该方法的F-measure达到0.54,是所有参赛方法中的最高值。
  • 在MSRA-TD500上,该方法实现了最先进性能,展现出在多种文本方向和复杂场景下的强大泛化能力。
  • 该方法对非均匀光照、点阵字体、断裂笔画、透视失真以及多语言文本均表现出鲁棒性。
  • 文本行候选的召回率对MSER参数T1和T2不敏感,表明该方法对组件质量变化具有稳定性。
  • 尽管性能优异,该方法在极低对比度文本、强反光以及字符间距极近或过远的情况下仍存在困难。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。