[论文解读] Multi-Oriented Text Detection with Fully Convolutional Networks
本文提出了一种基于全卷积网络(FCN)的框架,用于多方向文本检测,通过自粗到精的方式结合全局显著性图与局部字符组件。通过将FCN预测的文本显著性与基于MSER的组件分组相结合,并利用第二个FCN进行字符中心点预测,该方法在MSRA-TD500、ICDAR2015和ICDAR2013基准上实现了最先进性能,展现出对任意方向、多种语言以及复杂成像条件的鲁棒性。
In this paper, we propose a novel approach for text detec- tion in natural images. Both local and global cues are taken into account for localizing text lines in a coarse-to-fine pro- cedure. First, a Fully Convolutional Network (FCN) model is trained to predict the salient map of text regions in a holistic manner. Then, text line hypotheses are estimated by combining the salient map and character components. Fi- nally, another FCN classifier is used to predict the centroid of each character, in order to remove the false hypotheses. The framework is general for handling text in multiple ori- entations, languages and fonts. The proposed method con- sistently achieves the state-of-the-art performance on three text detection benchmarks: MSRA-TD500, ICDAR2015 and ICDAR2013.
研究动机与目标
- 解决在自然场景图像中检测任意方向文本的挑战。
- 提升在不同文本风格、语言以及低对比度和透视失真等成像条件下检测的鲁棒性。
- 有效整合全局(文本块)与局部(字符组件)线索,以改善文本行定位。
- 通过精确的字符中心点预测减少文本检测中的误报。
- 开发一种可泛化的框架,适用于水平与多方向文本检测。
提出的方法
- 训练一个全卷积网络(FCN),以预测像素级显著图,指示文本区域,从而实现整体、粗粒度的文本块检测。
- 从显著图中分割出文本块,并将其用作后续组件提取的感兴趣区域。
- 从文本块中提取最大稳定极值区域(MSER),以识别局部字符组件。
- 利用组件投影估计每个文本行候选的朝向。
- 通过结合朝向估计与来自组件和显著图的空间约束,生成候选边界框。
- 训练第二个FCN,以预测每个候选中的字符中心点,用于过滤误报。
实验结果
研究问题
- RQ1全卷积网络能否有效预测多方向文本检测的全局文本显著性?
- RQ2如何结合局部字符组件与全局文本块信息,以改善任意方向文本行的检测?
- RQ3用于字符中心点预测的二级FCN能否有效减少文本行候选中的误报?
- RQ4所提出的自粗到精框架是否能在多个数据集和文本类型(包括多语言和非水平文本)上实现泛化?
- RQ5该方法在低对比度、纹理干扰和透视失真等挑战性条件下的鲁棒性如何?
主要发现
- 在ICDAR2013数据集上,该方法的F-measure达到0.83,优于所有专为水平文本检测设计的先前方法。
- 在ICDAR2015基准上,该方法的F-measure达到0.54,是所有参赛方法中的最高值。
- 在MSRA-TD500上,该方法实现了最先进性能,展现出在多种文本方向和复杂场景下的强大泛化能力。
- 该方法对非均匀光照、点阵字体、断裂笔画、透视失真以及多语言文本均表现出鲁棒性。
- 文本行候选的召回率对MSER参数T1和T2不敏感,表明该方法对组件质量变化具有稳定性。
- 尽管性能优异,该方法在极低对比度文本、强反光以及字符间距极近或过远的情况下仍存在困难。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。