Skip to main content
QUICK REVIEW

[论文解读] Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text Detection.

Yuliang Liu, Tong He|arXiv (Cornell University)|Dec 20, 2019
Handwritten Text Recognition Techniques参考文献 52被引用 4
一句话总结

本文提出了一种无序列的框离散化(SBD)方法,这是一种新颖的全向场景文本检测方法,通过将四边形框离散化为关键边,并利用匹配过程重建精确的顶点位置,从而消除学习歧义。SBD在ICDAR 2015、MLT以及ICDAR2019鲁棒阅读挑战赛上均取得了最先进性能,展现出在中文标识文本上的强大泛化能力。

ABSTRACT

Omnidirectional scene text detection has received increasing research attention. Previous methods directly predict words or text lines of quadrilateral shapes. However, most methods neglect the significance of consistent labeling, which is important to maintain a stable training process, especially when a large amount of data are included. For the first time, we solve the problem in this paper by proposing a novel method termed Sequential-free Box Discretization (SBD). The proposed SBD first discretizes the quadrilateral box into several key edges, which contains all potential horizontal and vertical positions. In order to decode accurate vertex positions, a simple yet effective matching procedure is proposed to reconstruct the quadrilateral bounding boxes. It departs from the learning ambiguity which has a significant influence during the learning process. Exhaustive ablation studies have been conducted to quantitatively validate the effectiveness of our proposed method. More importantly, built upon SBD, we provide a detailed analysis of the impact of a collection of refinements, in the hope to inspire others to build state-of-the-art networks. Combining both SBD and these useful refinements, we achieve state-of-the-art performance on various benchmarks, including ICDAR 2015, and MLT. Our method also wins the first place in text detection task of the recent ICDAR2019 Robust Reading Challenge on Reading Chinese Text on Signboard, further demonstrating its powerful generalization ability. Code is available at https://tinyurl.com/sbdnet.

研究动机与目标

  • 解决基于四边形的场景文本检测中因标签不一致导致的训练不稳定性问题。
  • 消除文本检测中四边形顶点序列预测固有的学习歧义。
  • 设计一种标签方案,确保在大规模数据集训练过程中的一致性和稳定性。
  • 实现在全向场景中任意形状文本的精确且鲁棒的检测。
  • 通过系统的消融分析和优化,为构建最先进文本检测网络提供基础。

提出的方法

  • 将四边形边界框离散化为一组关键边,以捕捉所有潜在的水平和垂直位置。
  • 使用一种简单而有效的匹配过程,从离散化的关键边重建原始四边形。
  • 将顶点预测与序列生成解耦,消除对自回归解码的依赖,降低歧义性。
  • 设计一种标签方案,通过将预测与离散化关键边对齐,确保训练过程中的一致且稳定的监督。
  • 将SBD集成到检测网络架构中,实现端到端训练,提升收敛速度和准确性。
  • 在SBD基础上应用一系列优化措施,如损失加权和数据增强,进一步提升性能。

实验结果

研究问题

  • RQ1消除序列预测在基于四边形的文本检测中如何提升训练稳定性和检测准确性?
  • RQ2通过离散化实现的标签一致性在大规模文本检测中在多大程度上减少了学习歧义?
  • RQ3SBD在包括ICDAR2015、MLT以及中文标识文本数据集在内的多样化基准上的泛化能力如何?
  • RQ4在SBD之外,哪些优化措施对基准数据集上的性能提升贡献最大?
  • RQ5SBD是否能够在不依赖复杂序列解码机制的情况下实现最先进性能?

主要发现

  • SBD在ICDAR 2015基准上取得了最先进性能,相比之前方法在文本检测准确性和训练稳定性方面均有提升。
  • 该方法在MLT基准上表现最佳,展现出对多语言和多样化场景文本的强大泛化能力。
  • SBD在ICDAR2019鲁棒阅读挑战赛的中文标识文本检测任务中获得第一名,证实了其在复杂真实场景下的鲁棒性。
  • 消融研究证实,SBD显著减少了学习歧义,并提升了训练过程中的收敛速度和模型稳定性。
  • SBD与策略性优化措施的结合在多个基准上均带来了持续的性能提升,验证了所提框架的有效性。
  • 代码和训练模型已公开,支持可复现性,并推动无序列文本检测的进一步研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。