QUICK REVIEW

[论文解读] Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

Yuan Li, Yuanjie Yu|arXiv (Cornell University)|Nov 19, 2018

Handwritten Text Recognition Techniques参考文献 26被引用 27

一句话总结

Pixel-Anchor 提出了一种快速、端到端的定向场景文本检测器，通过特征共享和锚点级注意力机制，将语义分割与 SSD 相结合。通过在分割分支中集成 FPN 和 ASPP，并在 SSD 中引入自适应预测层，该方法在 960×1728 分辨率图像上于 ICDAR 2015 数据集实现了 10 FPS 下 87.68% 的 F 分数，准确率与速度均优于先前方法。

ABSTRACT

Recently, semantic segmentation and general object detection frameworks have been widely adopted by scene text detecting tasks. However, both of them alone have obvious shortcomings in practice. In this paper, we propose a novel end-to-end trainable deep neural network framework, named Pixel-Anchor, which combines semantic segmentation and SSD in one network by feature sharing and anchor-level attention mechanism to detect oriented scene text. To deal with scene text which has large variances in size and aspect ratio, we combine FPN and ASPP operation as our encoder-decoder structure in the semantic segmentation part, and propose a novel Adaptive Predictor Layer in the SSD. Pixel-Anchor detects scene text in a single network forward pass, no complex post-processing other than an efficient fusion Non-Maximum Suppression is involved. We have benchmarked the proposed Pixel-Anchor on the public datasets. Pixel-Anchor outperforms the competing methods in terms of text localization accuracy and run speed, more specifically, on the ICDAR 2015 dataset, the proposed algorithm achieves an F-score of 0.8768 at 10 FPS for 960 x 1728 resolution images.

研究动机与目标

解决纯语义分割和目标检测框架在检测定向场景文本时的局限性。
开发一种统一的、可端到端训练的网络，有效结合语义分割与 SSD 的优势，用于定向文本检测。
提升对尺寸和宽高比变化极大的场景文本的检测准确率与推理速度。
通过将非极大值抑制减少至单一高效融合步骤，降低对复杂后处理的依赖。

提出的方法

在语义分割分支中采用 FPN 和 ASPP 的特征共享编码器-解码器结构，以增强多尺度特征表示能力。
采用锚点级注意力机制，根据特征质量与空间上下文动态加权检测头。
在 SSD 头部引入自适应预测层，以更好地处理文本在宽高比和尺寸上的巨大差异。
通过单次前向传播实现端到端推理，将后处理简化为一个高效流畅的非极大值抑制融合步骤。
利用分割与检测分支之间的共享特征，提升参数效率与特征一致性。
通过平衡特征复杂度与计算成本，优化网络以实现实时推理。

实验结果

研究问题

RQ1统一的深度学习框架能否有效结合语义分割与 SSD，以实现定向场景文本检测？
RQ2特征共享与注意力机制在处理极端宽高比与尺寸变化的文本时，能否提升检测准确率？
RQ3FPN 与 ASPP 的集成在文本检测中在多尺度特征学习方面的增强效果如何？
RQ4所提出的自适应预测层能否在处理多样化方向与尺寸的定向文本时优于标准 SSD 头？
RQ5与现有最先进方法相比，该方法在速度与准确率之间如何实现平衡？

主要发现

Pixel-Anchor 在 ICDAR 2015 数据集上以 10 FPS 的速度处理 960×1728 分辨率图像时，实现了 0.8768 的 F 分数，展现出高准确率与实时性能。
该模型在定位准确率与推理速度两方面均优于竞争方法，证实了联合架构的有效性。
在分割分支中集成 FPN 与 ASPP 显著提升了多尺度文本检测的特征表示能力。
锚点级注意力机制通过聚焦于高置信度区域，减少了误检，从而提升了检测可靠性。
自适应预测层能有效应对极端宽高比与尺寸变化，显著增强了检测鲁棒性。
采用单一高效非极大值抑制融合步骤显著降低了后处理开销，且未牺牲检测准确率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。