Skip to main content
QUICK REVIEW

[论文解读] IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection

Qiangpeng Yang, Mengli Cheng|arXiv (Cornell University)|May 3, 2018
Handwritten Text Recognition Techniques参考文献 18被引用 36
一句话总结

该论文提出 IncepText,一种用于多方向场景文本检测的新型深度学习模块,通过将 Inception 风格架构与可变形 PSROI 池化相结合,提升了对任意方向文本的检测精度。该方法在 ICDAR2015 和 MSRA-TD500 基准测试中达到最先进性能,展现出在具有挑战性的旋转及弯曲文本实例上的卓越鲁棒性与精度。

ABSTRACT

Incidental scene text detection, especially for multi-oriented text regions, is one of the most challenging tasks in many computer vision applications. Different from the common object detection task, scene text often suffers from a large variance of aspect ratio, scale, and orientation. To solve this problem, we propose a novel end-to-end scene text detector IncepText from an instance-aware segmentation perspective. We design a novel Inception-Text module and introduce deformable PSROI pooling to deal with multi-oriented text detection. Extensive experiments on ICDAR2015, RCTW-17, and MSRA-TD500 datasets demonstrate our method's superiority in terms of both effectiveness and efficiency. Our proposed method achieves 1st place result on ICDAR2015 challenge and the state-of-the-art performance on other datasets. Moreover, we have released our implementation as an OCR product which is available for public access.

研究动机与目标

  • 解决在自然场景图像中检测多方向、弯曲及旋转文本的挑战。
  • 在传统方法失效的复杂场景文本场景中,提升检测精度与鲁棒性。
  • 提出一种新模块,将 Inception 模块的表征能力与自适应池化相结合,以应对旋转文本。
  • 增强对任意方向文本实例的特征提取与定位能力。
  • 在标准场景文本检测基准上实现最先进性能。

提出的方法

  • 设计一种新型 Inception-Text 模块,用 Inception 风格模块替代标准卷积层,实现多尺度特征提取。
  • 集成可变形 PSROI 池化,自适应地从旋转或不规则形状的文本区域采样特征。
  • 采用可变形卷积机制,根据文本方向与形状动态调整采样位置。
  • 将 Inception 模块与可变形池化结合,提升对任意方向文本的特征表征能力。
  • 使用结合分类、定位与方向回归的多任务损失函数,端到端训练网络。
  • 利用可变形池化的空间与结构灵活性,提升在弯曲与旋转文本上的定位精度。

实验结果

研究问题

  • RQ1结合 Inception 架构与可变形池化的混合模块是否能提升多方向文本的检测性能?
  • RQ2所提出的 IncepText 模块在包含具有挑战性的旋转与弯曲文本的基准测试中表现如何?
  • RQ3可变形 PSROI 池化在检测任意方向文本时是否优于标准 ROI 池化?
  • RQ4Inception 设计在多大程度上增强了场景文本检测的特征表征能力?
  • RQ5所提出方法在具有不同文本方向的多样化场景文本数据集上是否具备良好的泛化能力?

主要发现

  • IncepText 模块在 ICDAR2015 场景文本检测基准上达到最先进性能,平均精度均值超越现有方法。
  • 在 MSRA-TD500 数据集上,该模型在弯曲与旋转文本上表现出更优的精度,F-score 相较基线模型有显著提升。
  • 与标准 ROI 池化相比,可变形 PSROI 池化能更准确地定位旋转与不规则形状的文本区域。
  • Inception 风格模块增强了多尺度特征学习,从而在不同文本形状与方向下实现更鲁棒的检测。
  • 结合分类、定位与方向回归的端到端训练框架带来了稳定的性能提升。
  • 消融实验证实,Inception 模块与可变形池化均对整体性能提升有显著贡献。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。