Skip to main content
QUICK REVIEW

[论文解读] Learning Markov Clustering Networks for Scene Text Detection

Zichuan Liu, Guosheng Lin|arXiv (Cornell University)|May 22, 2018
Handwritten Text Recognition Techniques参考文献 19被引用 28
一句话总结

本文提出马尔可夫聚类网络(MCN),一种自底向上的场景文本检测框架,将图像建模为随机流图(SFG),并通过可微分马尔可夫聚类将局部区域聚类为实例级边界框,无需非极大值抑制(NMS)。MCN在MSRA-TD500数据集上达到SOTA性能(F-score 0.83),并实现34 FPS的实时推理速度,优于先前方法在检测多方向及尺度变化文本对象方面的表现。

ABSTRACT

A novel framework named Markov Clustering Network (MCN) is proposed for fast and robust scene text detection. MCN predicts instance-level bounding boxes by firstly converting an image into a Stochastic Flow Graph (SFG) and then performing Markov Clustering on this graph. Our method can detect text objects with arbitrary size and orientation without prior knowledge of object size. The stochastic flow graph encode objects' local correlation and semantic information. An object is modeled as strongly connected nodes, which allows flexible bottom-up detection for scale-varying and rotated objects. MCN generates bounding boxes without using Non-Maximum Suppression, and it can be fully parallelized on GPUs. The evaluation on public benchmarks shows that our method outperforms the existing methods by a large margin in detecting multioriented text objects. MCN achieves new state-of-art performance on challenging MSRA-TD500 dataset with precision of 0.88, recall of 0.79 and F-score of 0.83. Also, MCN achieves realtime inference with frame rate of 34 FPS, which is $1.5 imes$ speedup when compared with the fastest scene text detection algorithm.

研究动机与目标

  • 为解决基于预定义锚框的自顶向下目标检测方法在处理任意文本尺寸和方向时的局限性。
  • 通过实现端到端、可并行化的聚类,消除对非极大值抑制(NMS)的需求。
  • 开发一种灵活、数据驱动的框架,捕捉局部相关性与语义上下文,以实现对尺度变化和旋转文本的鲁棒检测。
  • 在保持高精度的同时,实现实时推理速度,尤其在MSRA-TD500等挑战性基准上表现优异。

提出的方法

  • 该方法构建一个随机流图(SFG),其中等距重叠的图像区域作为节点,节点间的流权重表示局部相关性与语义相似度。
  • 在SFG上应用马尔可夫聚类(MC),以识别强连通分量,这些分量对应于完整的文本实例。
  • 将马尔可夫聚类实现为可微分神经网络层,以支持整个框架的端到端训练。
  • 通过后处理从聚类节点生成边界框,避免使用NMS,并实现完整的GPU并行化。
  • 模型使用全卷积主干网络生成节点间的流分数,聚类通过在SFG上迭代传播概率完成。
  • 框架通过损失函数进行端到端训练,该损失函数优化聚类的紧凑性与分离度。

实验结果

研究问题

  • RQ1基于图的自底向上聚类方法是否能在检测任意方向与尺度变化的文本方面优于基于锚框的自顶向下方法?
  • RQ2马尔可夫聚类能否实现可微分化并支持端到端训练以用于场景文本检测?
  • RQ3聚类过程能否在GPU上完全并行化,实现实时推理且无需NMS?
  • RQ4所提出的方法是否在包含多方向与长文本实例的基准上达到SOTA性能?

主要发现

  • MCN在具有挑战性的MSRA-TD500数据集上实现了新的SOTA F-score(0.83),其中精确率0.88,召回率0.79。
  • 在ICDAR 2013数据集上,MCN达到F-score 0.88,尽管未使用NMS,其性能仍与或优于先前方法。
  • MCN在512×512输入下实现34 FPS的推理速度,相比最快现有方法提速1.5倍。
  • 该方法对长文本和旋转文本表现出更强的鲁棒性,由于其灵活的几何处理能力,在MSRA-TD500上的性能相比ICDAR 2013有显著提升。
  • 马尔可夫聚类收敛迅速,仅需5次迭代(N=5)即可达到最优性能,聚类计算仅耗时0.86 ms。
  • 即使在较低节点密度(16×16)下,该方法仍保持高精度,展现出对小文本对象中弱局部流的强鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。