QUICK REVIEW

[论文解读] Accurate Text Localization in Natural Image with Cascaded Convolutional Text Network

Tong He, Weilin Huang|arXiv (Cornell University)|Mar 31, 2016

Handwritten Text Recognition Techniques参考文献 27被引用 82

一句话总结

本文提出了一种新颖的级联卷积文本网络（Cascaded Convolutional Text Network, CCTN），通过采用自粗到精、自顶向下的方法，直接估计文本区域，而非依赖基于字符的检测，从而实现自然图像中准确的文本定位。通过使用定制的矩形卷积和网络内特征融合，CCTN在ICDAR 2011和ICDAR 2013数据集上分别取得了0.84和0.86的SOTA F-measure，且对多语言和多方向文本具有出色的泛化能力。

ABSTRACT

We introduce a new top-down pipeline for scene text detection. We propose a novel Cascaded Convolutional Text Network (CCTN) that joints two customized convolutional networks for coarse-to-fine text localization. The CCTN fast detects text regions roughly from a low-resolution image, and then accurately localizes text lines from each enlarged region. We cast previous character based detection into direct text region estimation, avoiding multiple bottom- up post-processing steps. It exhibits surprising robustness and discriminative power by considering whole text region as detection object which provides strong semantic information. We customize convolutional network by develop- ing rectangle convolutions and multiple in-network fusions. This enables it to handle multi-shape and multi-scale text efficiently. Furthermore, the CCTN is computationally efficient by sharing convolutional computations, and high-level property allows it to be invariant to various languages and multiple orientations. It achieves 0.84 and 0.86 F-measures on the ICDAR 2011 and ICDAR 2013, delivering substantial improvements over state-of-the-art results [23, 1].

研究动机与目标

解决依赖于字符检测、分组和后处理的自底向上场景文本检测方法的局限性。
克服基于字符的检测流水线固有的不稳定性和误差累积问题。
提出一种直接估计文本区域的方法，通过利用整个文本区域的上下文和语义信息，提升鲁棒性和判别能力。
设计一种计算效率高的架构，能够处理非受限环境中多尺度、多形状和多方向的文本。
在标准基准上实现SOTA性能，同时保持跨语言和方向的泛化能力。

提出的方法

提出两级级联架构：首先由粗粒度网络在低分辨率下检测文本区域，随后由细粒度网络对每个区域进行细化，以精确定位单行文本。
引入矩形卷积，以更好地捕捉文本的空间几何特性，相较于标准方形滤波器，对长条形水平文本区域更具有效性。
实现多种网络内特征融合，以增强特征表示，并提升在多样化文本形状和尺度下的定位精度。
利用全卷积网络并共享卷积计算，以保持空间信息并降低计算成本。
端到端训练模型，以优化直接预测文本区域，避免对字符级分类和后处理启发式规则的依赖。
采用自顶向下的流水线，避免对字符候选进行复杂分组，减少对几何规则和人工阈值的依赖。

实验结果

研究问题

RQ1自顶向下、基于区域的方法是否能在场景文本检测中超越传统的自底向上、基于字符的流水线？
RQ2使用深度卷积网络直接估计文本区域，在处理多尺度和多方向文本方面效果如何？
RQ3具有自粗到精细化的级联架构在保持计算效率的同时，能在多大程度上提升定位精度？
RQ4仅在英文文本上训练的模型是否能在不微调的情况下有效泛化到其他语言和旋转文本？
RQ5使用矩形卷积和网络内特征融合是否能提升模型在具有挑战性的非受限自然场景图像上的性能？

主要发现

CCTN在ICDAR 2011基准上取得了0.84的F-measure，显著超越了以往的SOTA方法。
在ICDAR 2013数据集上，CCTN达到了0.86的F-measure，显示出对现有方法的显著改进。
该模型在多语言和多方向文本上表现出良好的泛化能力，在未使用其训练数据的MSRA-TD500数据集上取得了0.71的F-measure。
尽管粗粒度阶段具有较高的精确率（0.90），但细粒度网络引入了一些误报，表明精炼精度存在权衡。
该方法在小尺度和大尺度文本上均保持了强劲性能，展现出在多样化图像条件下的鲁棒性。
级联设计降低了对复杂后处理步骤的依赖，从而构建了更可靠、更高效的检测流水线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。