[论文解读] Scene Text Detection via Holistic, Multi-Channel Prediction
本文将场景文本检测视为语义分割,并在单个全卷积网络(FCN)中联合预测文本区域、字符以及连接方向,从而实现多方向和曲线文本检测,在 ICDAR 2013/2015、MSRA-TD500 和 COCO-Text 数据集上达到最新状态的结果。
Recently, scene text detection has become an active research topic in computer vision and document analysis, because of its great importance and significant challenge. However, vast majority of the existing methods detect text within local regions, typically through extracting character, word or line level candidates followed by candidate aggregation and false positive elimination, which potentially exclude the effect of wide-scope and long-range contextual cues in the scene. To take full advantage of the rich information available in the whole natural image, we propose to localize text in a holistic manner, by casting scene text detection as a semantic segmentation problem. The proposed algorithm directly runs on full images and produces global, pixel-wise prediction maps, in which detections are subsequently formed. To better make use of the properties of text, three types of information regarding text region, individual characters and their relationship are estimated, with a single Fully Convolutional Network (FCN) model. With such predictions of text properties, the proposed algorithm can simultaneously handle horizontal, multi-oriented and curved text in real-world natural images. The experiments on standard benchmarks, including ICDAR 2013, ICDAR 2015 and MSRA-TD500, demonstrate that the proposed algorithm substantially outperforms previous state-of-the-art approaches. Moreover, we report the first baseline result on the recently-released, large-scale dataset COCO-Text.
研究动机与目标
- 将场景文本检测视为语义分割问题,以利用全局图像上下文。
- 联合预测三个文本相关属性:文本区域、单个字符以及字符之间的连接方向。
- 开发一个从像素级映射形成检测的流水线,结合分割、基于图的分组与划分。
- 证明对多方向和曲线文本的鲁棒性,并在标准基准(ICDAR 2013/2015、MSRA-TD500)以及 COCO-Text 上进行验证。
提出的方法
- 扩展一个受 HED 启发的全卷积网络(FCN),使其对每张图像输出三个预测图:文本区域、字符(训练时对字符进行了缩小处理)以及连接方向。
- 真实标签映射包括二值区域图、二值字符图和软方向图;方向在区间 [−π/2, π/2] 内定义,并归一化到 [0,1]。
- 使用多通道损失进行融合与训练,在加权目标中联合文本区域、字符与方向损失,权重相等(λ1=λ2=λ3=1/3)。
- 推理阶段,生成预测映射,应用自适应阈值化以获得文本区域和字符候选,并使用德劳内三角剖分和图结构将字符连接成文本行。
- 基于图的分组使用最大生成树以及基于直线性、距离和方向的评分来将字符划分到文本行,针对曲线文本设定阈值 τ 以处理非线性布局。
- 在测试阶段对多尺度进行融合以产生最终检测结果。
实验结果
研究问题
- RQ1是否可以通过从局部区域决策转向在整张图像上进行全局像素级预测来改进场景文本检测?
- RQ2在同一个 FCN 中预测额外的文本属性(字符和连接方向)是否有助于提升相邻文本实例的分离与分组?
- RQ3基于图的多通道预测框架是否能够在自然场景中稳健地检测多方向和曲线文本?
- RQ4与现有工作相比,整体多通道文本检测在标准基准(ICDAR 2013/2015、MSRA-TD500)和 COCO-Text 上的表现如何?
主要发现
- 所提出的方法在 ICDAR 2013 上实现高召回率(0.8022),精度 0.8888,F1-score 0.8433。
- 在 ICDAR 2015 上,精度 0.7226,召回 0.5869,F-measure 0.6477,在召回率方面优于若干基线,在精度方面接近最佳。
- 在 MSRA-TD500 上,精度 0.7651,召回 0.7531,F-measure 0.7591,召回率较以往工作有显著提升。
- 在 COCO-Text 验证集上,精度 0.4323,召回 0.271,F-measure 0.3331,展示了对大规模、多样数据集的扩展性。
- 该方法对多语言、不同书写系统、曲线文本以及现实世界中的挑战性条件表现出定性鲁棒性。
- 推理大约在每张 640x480 图像上耗时 0.42s,使用 K40m GPU,后处理约 0.2s CPU。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。