QUICK REVIEW

[论文解读] Multi-Oriented Text Detection with Fully Convolutional Networks

Zheng Zhang, Chengquan Zhang|arXiv (Cornell University)|Apr 14, 2016

Handwritten Text Recognition Techniques参考文献 30被引用 85

一句话总结

本文提出了一种基于全卷积网络（FCN）的框架，用于多方向文本检测，通过自粗到精的方式结合全局显著性图与局部字符组件。通过将FCN预测的文本显著性与基于MSER的组件分组相结合，并利用第二个FCN进行字符中心点预测，该方法在MSRA-TD500、ICDAR2015和ICDAR2013基准上实现了最先进性能，展现出对任意方向、多种语言以及复杂成像条件的鲁棒性。

ABSTRACT

In this paper, we propose a novel approach for text detec- tion in natural images. Both local and global cues are taken into account for localizing text lines in a coarse-to-fine pro- cedure. First, a Fully Convolutional Network (FCN) model is trained to predict the salient map of text regions in a holistic manner. Then, text line hypotheses are estimated by combining the salient map and character components. Fi- nally, another FCN classifier is used to predict the centroid of each character, in order to remove the false hypotheses. The framework is general for handling text in multiple ori- entations, languages and fonts. The proposed method con- sistently achieves the state-of-the-art performance on three text detection benchmarks: MSRA-TD500, ICDAR2015 and ICDAR2013.

研究动机与目标

解决在自然场景图像中检测任意方向文本的挑战。
提升在不同文本风格、语言以及低对比度和透视失真等成像条件下检测的鲁棒性。
有效整合全局（文本块）与局部（字符组件）线索，以改善文本行定位。
通过精确的字符中心点预测减少文本检测中的误报。
开发一种可泛化的框架，适用于水平与多方向文本检测。

提出的方法

训练一个全卷积网络（FCN），以预测像素级显著图，指示文本区域，从而实现整体、粗粒度的文本块检测。
从显著图中分割出文本块，并将其用作后续组件提取的感兴趣区域。
从文本块中提取最大稳定极值区域（MSER），以识别局部字符组件。
利用组件投影估计每个文本行候选的朝向。
通过结合朝向估计与来自组件和显著图的空间约束，生成候选边界框。
训练第二个FCN，以预测每个候选中的字符中心点，用于过滤误报。

实验结果

研究问题

RQ1全卷积网络能否有效预测多方向文本检测的全局文本显著性？
RQ2如何结合局部字符组件与全局文本块信息，以改善任意方向文本行的检测？
RQ3用于字符中心点预测的二级FCN能否有效减少文本行候选中的误报？
RQ4所提出的自粗到精框架是否能在多个数据集和文本类型（包括多语言和非水平文本）上实现泛化？
RQ5该方法在低对比度、纹理干扰和透视失真等挑战性条件下的鲁棒性如何？

主要发现

在ICDAR2013数据集上，该方法的F-measure达到0.83，优于所有专为水平文本检测设计的先前方法。
在ICDAR2015基准上，该方法的F-measure达到0.54，是所有参赛方法中的最高值。
在MSRA-TD500上，该方法实现了最先进性能，展现出在多种文本方向和复杂场景下的强大泛化能力。
该方法对非均匀光照、点阵字体、断裂笔画、透视失真以及多语言文本均表现出鲁棒性。
文本行候选的召回率对MSER参数T1和T2不敏感，表明该方法对组件质量变化具有稳定性。
尽管性能优异，该方法在极低对比度文本、强反光以及字符间距极近或过远的情况下仍存在困难。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。