Skip to main content
QUICK REVIEW

[论文解读] TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

Shangbang Long, Jiaqiang Ruan|arXiv (Cornell University)|Jul 4, 2018
Handwritten Text Recognition Techniques参考文献 47被引用 32
一句话总结

TextSnake 提出了一种灵活且可微分的表示方法,用于检测任意形状的文本——尤其是弯曲和多方向文本——通过沿中心轴排列的一系列有序、重叠的圆盘实现,其中圆盘的半径和方向为可学习参数。该方法通过全卷积网络进行端到端训练,在 Total-Text 基准测试中相比先前方法将 F-measure 提升超过 40%,达到最先进性能。

ABSTRACT

Driven by deep neural networks and large scale datasets, scene text detection methods have progressed substantially over the past years, continuously refreshing the performance records on various standard benchmarks. However, limited by the representations (axis-aligned rectangles, rotated rectangles or quadrangles) adopted to describe text, existing methods may fall short when dealing with much more free-form text instances, such as curved text, which are actually very common in real-world scenarios. To tackle this problem, we propose a more flexible representation for scene text, termed as TextSnake, which is able to effectively represent text instances in horizontal, oriented and curved forms. In TextSnake, a text instance is described as a sequence of ordered, overlapping disks centered at symmetric axes, each of which is associated with potentially variable radius and orientation. Such geometry attributes are estimated via a Fully Convolutional Network (FCN) model. In experiments, the text detector based on TextSnake achieves state-of-the-art or comparable performance on Total-Text and SCUT-CTW1500, the two newly published benchmarks with special emphasis on curved text in natural images, as well as the widely-used datasets ICDAR 2015 and MSRA-TD500. Specifically, TextSnake outperforms the baseline on Total-Text by more than 40% in F-measure.

研究动机与目标

  • 为解决现有场景文本检测器依赖于刚性表示(如轴对齐或旋转矩形)在弯曲和自由形态文本上失效的问题。
  • 开发一种通用表示方法,能够准确描述任意形状的文本实例,包括水平、定向和弯曲形式。
  • 通过可学习的连续中心轨迹实现文本的精确几何建模,支持可变宽度和方向。
  • 在强调弯曲文本的基准测试(如 Total-Text 和 SCUT-CTW1500)上提升检测性能,同时在标准数据集上保持优异表现。

提出的方法

  • TextSnake 将一个文本实例表示为沿可学习中心轴排列的一系列有序、重叠的圆盘,每个圆盘具有可变半径和方向。
  • 中心轴、半径和方向通过一个具有新型可微分聚类层(TCL)的单一全卷积网络(FCN)端到端预测,以将预测结果聚类为连贯的文本实例。
  • TCL 机制确保预测的中心点有序且不重叠,从而实现清晰的实例分离,并简化实例分割。
  • 模型通过多任务损失进行训练,结合中心点、半径和方向预测,并利用可微分聚类强制实现空间一致性。
  • 该表示方法可将弯曲文本转换为拉直形式,便于后续识别任务。
  • 该方法在 ICDAR 2015、MSRA-TD500、Total-Text 和 SCUT-CTW1500 上进行训练和评估,对水平、定向和弯曲文本均保持一致的性能表现。

实验结果

研究问题

  • RQ1可学习的连续中心轴表示是否能在检测弯曲和不规则形状文本方面优于刚性几何表示(如矩形、四边形)?
  • RQ2在训练时不含弯曲文本但推理时包含弯曲文本的数据集上,该灵活可微分表示的泛化能力如何?
  • RQ3将文本建模为可变半径圆盘序列在强调弯曲文本的基准测试中,对检测准确率的提升程度如何?
  • RQ4所提出的表示是否能简化实例分割,并实现更易转换为标准形式以供识别?
  • RQ5该方法在保持标准基准测试优异表现的同时,是否在专门针对弯曲文本的基准测试中达到最先进性能?

主要发现

  • 在 MSRA-TD500 上,TextSnake 达到 78.3% 的 F-measure,优于先前方法(包括 EAST、SegLink 和 PixelLink)。
  • 在 Total-Text 基准测试中,TextSnake 相比基线方法将 F-measure 提升 40.0%,创下新的最先进结果。
  • 在跨数据集评估中,仅在 ICDAR 2015 上微调后,TextSnake 在 Total-Text 上达到 64.6% 的 F-measure,在 CTW1500 上达到 64.4%,显著优于 SegLink、EAST 和 PixelLink。
  • 该方法表现出强大的泛化能力:即使未在弯曲数据集上进行微调,也能在弯曲文本上表现良好,表明对形状变化具有鲁棒性。
  • 使用可微分聚类层(TCL)可实现精确且不重叠的中心轴预测,简化实例分离并提升检测准确率。
  • 预测的几何结构可有效将弯曲文本转换为标准形式,有利于下游文本识别任务。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。