Skip to main content
QUICK REVIEW

[论文解读] ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification

Fangneng Zhan, Shijian Lu|arXiv (Cornell University)|Dec 14, 2018
Handwritten Text Recognition Techniques参考文献 49被引用 31
一句话总结

ESIR 提出了一种端到端可训练的场景文本识别系统,通过一种新颖的线性拟合变换和迭代校正流程,迭代地校正透视失真和文本行弯曲。通过利用识别性能驱动的多轮反馈循环优化校正过程,ESIR 在 SVTP 和 CUTE 等具有挑战性的数据集上实现了最先进水平的准确率,且仅需词级别标签作为额外标注,无需其他额外标注。

ABSTRACT

Automated recognition of texts in scenes has been a research challenge for years, largely due to the arbitrary variation of text appearances in perspective distortion, text line curvature, text styles and different types of imaging artifacts. The recent deep networks are capable of learning robust representations with respect to imaging artifacts and text style changes, but still face various problems while dealing with scene texts with perspective and curvature distortions. This paper presents an end-to-end trainable scene text recognition system (ESIR) that iteratively removes perspective distortion and text line curvature as driven by better scene text recognition performance. An innovative rectification network is developed which employs a novel line-fitting transformation to estimate the pose of text lines in scenes. In addition, an iterative rectification pipeline is developed where scene text distortions are corrected iteratively towards a fronto-parallel view. The ESIR is also robust to parameter initialization and the training needs only scene text images and word-level annotations as required by most scene text recognition systems. Extensive experiments over a number of public datasets show that the proposed ESIR is capable of rectifying scene text distortions accurately, achieving superior recognition performance for both normal scene text images and those suffering from perspective and curvature distortions.

研究动机与目标

  • 解决现有基于深度学习的系统在严重透视失真和弯曲条件下识别性能下降的长期挑战。
  • 开发一种鲁棒的端到端可训练框架,通过迭代优化图像校正过程,无需额外标注即可提升识别性能。
  • 设计一种线性拟合变换,能够灵活且准确地建模直线和曲线文本行的形态。
  • 通过基于识别反馈的迭代式校正流程,逐步校正失真,提升校正精度。
  • 确保系统对参数初始化不敏感,并在多阶段校正下保持计算效率。

提出的方法

  • 系统采用一种迭代校正网络,应用多个前向校正模块,每个模块基于识别反馈对前一模块的输出进行细化。
  • 一种新颖的线性拟合变换使用多项式建模文本的中线,能够灵活且准确地估计直线和曲线文本行的位姿。
  • 使用线段估计文本行的垂直方向和边界,提升垂直方向估计的鲁棒性。
  • 校正网络通过反向传播端到端训练,仅使用场景文本图像和词级别标注,与识别网络联合优化。
  • 迭代框架允许逐步校正失真,每一阶段均基于前一阶段的输出进行优化,以提升最终识别准确率。
  • 该架构计算效率高,校正网络相比特征提取器和识别头更为轻量化。

实验结果

研究问题

  • RQ1与单阶段校正相比,迭代校正是否能显著提升在高度失真图像上的场景文本识别性能?
  • RQ2所提出的线性拟合变换在建模和校正透视失真与文本行弯曲方面是否有效?
  • RQ3基于识别反馈的端到端训练方案是否能在无需额外标注的情况下取得更优结果?
  • RQ4系统对超参数(如校正迭代次数和线段数量)的敏感性如何?
  • RQ5迭代校正流程是否能在保持低计算开销的同时实现高准确率?

主要发现

  • ESIR 在 CUTE 数据集上达到 83.3% 的识别准确率,显著优于基线方法,尤其在高度失真样本上表现突出。
  • 在 SVTP 数据集上,使用 5 次校正迭代和 20 条线段时,ESIR 达到 79.6% 的准确率,较单次迭代基线(73.2%)提升 6.4 个百分点。
  • 性能提升在早期迭代中最为显著:CUTE 数据集上从 1 次增加到 2 次迭代,准确率提升 5.5 个百分点。
  • 使用更多线段(最多 15 条)可进一步提升识别准确率,但增益小于增加迭代次数带来的提升。
  • 尽管包含多个校正阶段,单张图像的推理时间仅为 28ms(批量大小为 1),与 SOTA 模型 ASTER(20ms)相当。
  • 可视化对比显示,ESIR 在弯曲和透视失真文本上的校正结果比 RARE 和 ASTER 更清晰、更准确。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。