QUICK REVIEW

[论文解读] Fused Text Segmentation Networks for Multi-oriented Scene Text Detection

Yuchen Dai, Zheng Huang|arXiv (Cornell University)|Sep 11, 2017

Handwritten Text Recognition Techniques参考文献 39被引用 25

一句话总结

该论文提出Fused Text Segmentation Networks（FTSN），一种端到端、实例感知的框架，通过融合多层级特征并使用Mask-NMS实现更优的非极大值抑制，联合检测并分割多方向文本。在ICDAR2015上达到84.1%的H-mean，在MSRA-TD500上达到82.0%，同时在包含曲线文本的Total-Text数据集上建立了新的基准。

ABSTRACT

In this paper, we introduce a novel end-end framework for multi-oriented scene text detection from an instance-aware semantic segmentation perspective. We present Fused Text Segmentation Networks, which combine multi-level features during the feature extracting as text instance may rely on finer feature expression compared to general objects. It detects and segments the text instance jointly and simultaneously, leveraging merits from both semantic segmentation task and region proposal based object detection task. Not involving any extra pipelines, our approach surpasses the current state of the art on multi-oriented scene text detection benchmarks: ICDAR2015 Incidental Scene Text and MSRA-TD500 reaching Hmean 84.1% and 82.0% respectively. Morever, we report a baseline on total-text containing curved text which suggests effectiveness of the proposed approach.

研究动机与目标

解决在非受限场景中高精度、高效率检测多方向及曲线文本的挑战。
克服现有方法依赖冗余流水线或难以处理任意形状文本实例的局限性。
开发一种统一的、可端到端训练的框架，结合区域建议网络与语义分割的优势，实现文本实例检测。
通过引入Mask-NMS，提升对高度倾斜或线级文本实例的非极大值抑制性能。
为包含曲线文本的Total-Text数据集建立强有力的基线，以支持未来在曲线文本检测方面的研究。

提出的方法

在特征提取阶段融合多层级卷积特征，以增强文本实例的细粒度表征。
使用定制化锚框尺度[32², 64², 128², 256²]和长宽比[1/3, 1/2, 1, 2, 3, 5, 7]的区域建议网络（RPN），以适配文本的大长宽比和小尺度特性。
将实例感知的语义分割与区域建议相结合，以端到端方式联合检测并分割文本实例。
应用Mask-NMS，利用预测的分割掩码更有效地抑制重叠检测，优于标准NMS。
在特征图上使用PSROIPooling生成区域特定特征，以实现精确的掩码预测。
采用数据增强策略，包括多尺度训练、旋转（15°, 30°, 45°）、水平翻转和颜色抖动，以提升模型鲁棒性。

实验结果

研究问题

RQ1统一的、端到端的框架是否能比现有两阶段或流水线式方法更有效地联合检测和分割多方向文本？
RQ2跨多个层级的特征融合在提升不同尺度和方向文本的检测性能方面有何作用？
RQ3Mask-NMS在抑制重叠或高度倾斜的文本实例方面，相比标准NMS的优越程度如何？
RQ4所提方法是否能在无需专门设计的情况下，良好泛化到包含曲线文本的数据集（如Total-Text）？
RQ5由于省去了冗余后处理步骤（如显著性图或文本行生成），是否能同时实现更高的效率和更好的精度？

主要发现

FTSN结合Mask-NMS在ICDAR2015上达到84.1%的H-mean，较之前最先进方法在H-mean上提升3.1个百分点，在精度上提升5.3个百分点。
在MSRA-TD500上，FTSN结合Mask-NMS实现82.0%的H-mean，H-mean与召回率均显著优于此前最佳结果。
该方法在Total-Text上达到81.3%的H-mean，创下新SOTA基准，表明其在未显式进行曲线文本训练的情况下，对曲线文本具有强大的泛化能力。
Mask-NMS在ICDAR2015上使H-mean提升0.7%，在MSRA-TD500上提升0.3%，证实其在处理重叠或倾斜文本实例方面的有效性。
模型在848×1500图像上运行速度约为4 FPS，启用Mask-NMS后约为2.5 FPS，表明其在速度与精度之间实现了良好平衡。
消融实验表明，所提出的特征融合与Mask-NMS组件对性能至关重要，尤其在处理具有挑战性的多方向和曲线文本场景时。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。