Skip to main content
QUICK REVIEW

[论文解读] Efficient Backbone Search for Scene Text Recognition.

Hui Zhang, Quanming Yao|arXiv (Cornell University)|Mar 14, 2020
Handwritten Text Recognition Techniques被引用 12
一句话总结

本文提出 AutoSTR,一种用于场景文本识别的自动化神经架构搜索框架,通过领域特定的搜索空间和两步搜索算法设计数据相关主干网络。通过解耦操作与下采样路径的搜索,AutoSTR 在标准基准上实现了最先进(SOTA)的准确率,同时显著降低了 FLOPS 和参数量。

ABSTRACT

Scene text recognition (STR) is very challenging due to the diversity of text instances and the complexity of scenes. The community has paid increasing attention to boost the performance by improving the pre-processing image module, like rectification and deblurring, or the sequence translator. However, another critical module, i.e., the feature sequence extractor, has not been extensively explored. In this work, inspired by the success of neural architecture search (NAS), which can identify better architectures than human-designed ones, we propose automated STR (AutoSTR) to search data-dependent backbones to boost text recognition performance. First, we design a domain-specific search space for STR, which contains both choices on operations and constraints on the downsampling path. Then, we propose a two-step search algorithm, which decouples operations and downsampling path, for an efficient search in the given space. Experiments demonstrate that, by searching data-dependent backbones, AutoSTR can outperform the state-of-the-art approaches on standard benchmarks with much fewer FLOPS and model parameters.

研究动机与目标

  • 为解决场景文本识别(STR)中特征序列提取器作用未被充分探索的问题。
  • 开发一种自动化方法,用于搜索优于人工设计架构的数据相关主干网络。
  • 通过最小化 FLOPS 和模型参数,在 STR 中降低计算成本,同时保持或提升准确率。
  • 设计一个针对场景文本识别独特挑战的领域特定搜索空间。

提出的方法

  • 设计一个包含操作选择及下采样路径约束的领域特定搜索空间,以适配 STR。
  • 提出一种两步搜索算法,通过解耦操作与下采样路径的搜索,提升搜索效率。
  • 采用可微搜索策略,在定义的搜索空间内优化网络架构。
  • 在标准场景文本识别基准上训练并评估所搜索到的架构,以验证其性能。
  • 应用知识蒸馏技术,在不损失准确率的前提下提升最终模型的效率。

实验结果

研究问题

  • RQ1自动化神经架构搜索能否有效发现优于人工设计的主干网络?
  • RQ2解耦操作与下采样路径搜索如何提升 STR 中的效率与性能?
  • RQ3数据相关架构搜索对减少 STR 中的 FLOPS 和模型参数有何影响?
  • RQ4所提方法能否在标准 STR 基准上实现最先进性能?

主要发现

  • AutoSTR 在标准场景文本识别基准上实现了最先进准确率,优于现有方法。
  • 与先前 SOTA 模型相比,所搜索的主干网络在 FLOPS 上有显著降低。
  • AutoSTR 的模型参数量远少于最先进方法,表明其具有更高的效率。
  • 两步搜索算法在不损害性能的前提下,实现了对搜索空间的高效探索。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。