Skip to main content
QUICK REVIEW

[论文解读] What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

Jeonghun Baek, Geewook Kim|arXiv (Cornell University)|Apr 3, 2019
Handwritten Text Recognition Techniques参考文献 30被引用 74
一句话总结

论文揭示STR训练/评估数据集中的不一致性,提出统一的四阶段框架,并在单一数据集设定下分析模块贡献,以实现对STR模型的公平比较。

ABSTRACT

Many new proposals for scene text recognition (STR) models have been introduced in recent years. While each claim to have pushed the boundary of the technology, a holistic and fair comparison has been largely missing in the field due to the inconsistent choices of training and evaluation datasets. This paper addresses this difficulty with three major contributions. First, we examine the inconsistencies of training and evaluation datasets, and the performance gap results from inconsistencies. Second, we introduce a unified four-stage STR framework that most existing STR models fit into. Using this framework allows for the extensive evaluation of previously proposed STR modules and the discovery of previously unexplored module combinations. Third, we analyze the module-wise contributions to performance in terms of accuracy, speed, and memory demand, under one consistent set of training and evaluation datasets. Such analyses clean up the hindrance on the current comparisons to understand the performance gain of the existing modules.

研究动机与目标

  • 识别用于场景文本识别(STR)的训练和评估数据集中的不一致性。
  • 提出统一的四阶段STR框架以标准化模块分析。
  • 在一个共同的数据集设置下评估模块对准确性、速度和内存的贡献。
  • 就公平比较实践提供指导并突出STR领域的仍存挑战。

提出的方法

  • 引入四阶段STR框架:转换、特征提取、序列建模和预测。
  • 允许在每个阶段内评估模块变体(如TPS、VGG/RCNN/ResNet、BiLSTM、CTC/Attn)。
  • 将训练数据固定为MJSynth与SynthText的联合,并在统一的真实数据集上进行评估。
  • 在统一数据集下穷尽性比较24种模块组合,并计算准确性、速度和内存。
  • 通过消融分析使用不同训练数据混合(MJ、ST、两者)对数据集效果的影响。
  • 报告失败案例与定性分析,以识别尚存的挑战。

实验结果

研究问题

  • RQ1STR训练/评估数据集中的不一致性如何影响报告的性能?
  • RQ2在统一的四阶段框架中组合STR模块对准确性、速度和内存的影响是什么?
  • RQ3在一致数据集下哪些模块选择能实现最佳权衡,尚存的挑战是什么?
  • RQ4在固定评估协议下,训练数据选择(MJ、ST或两者)如何影响STR性能?

主要发现

  • 数据集不一致可能导致显著的性能差距,妨碍不同STR方法之间的公平比较。
  • 使用统一的训练集(MJ+ST)在准确性上比任一数据集单独使用有更大提升,合并后为84.1%,分别为MJ 80.0%、ST 75.6%。
  • 结构化的4阶段框架使模块组合的系统性探索成为可能,揭示在准确性与速度或内存之间保持平衡的前沿组合。
  • 某些模块(如ResNet、BiLSTM、TPS、Attn)在逐步提升准确性的同时,对速度和内存的影响不同,为实际权衡定义了明确的边界。
  • 分析表明不规则数据集在模块升级上的准确性提升约为规则数据集的一倍,强调数据集对结果的影响。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。