Skip to main content
QUICK REVIEW

[论文解读] Alchemy: Techniques for Rectification Based Irregular Scene Text Recognition

Shangbang Long, Yushuo Guan|arXiv (Cornell University)|Aug 30, 2019
Handwritten Text Recognition Techniques被引用 3
一句话总结

本文提出了一套名为“Alchemy”的技术,显著提升了基于校正的不规则场景文本识别性能。通过结合数据增强、损失函数优化和网络架构改进,该方法在 CUTE-80 上达到 89.6% 的准确率,在 Total-Text 上达到 76.3%,并在 ICDAR 2019 不规则形状文本挑战赛中以 74.3% 的准确率夺得冠军。

ABSTRACT

Reading text from natural images is challenging due to the great variety in text font, color, size, complex background and etc.. The perspective distortion and non-linear spatial arrangement of characters make it further difficult. While rectification based method is intuitively grounded and has pushed the envelope by far, its potential is far from being well exploited. In this paper, we present a bag of tricks that prove to significantly improve the performance of rectification based method. On curved text dataset, our method achieves an accuracy of 89.6% on CUTE-80 and 76.3% on Total-Text, an improvement over previous state-of-the-art by 6.3% and 14.7% respectively. Furthermore, our combination of tricks helps us win the ICDAR 2019 Arbitrary-Shaped Text Challenge (Latin script), achieving an accuracy of 74.3% on the held-out test set. We release our code as well as data samples for further exploration at this https URL

研究动机与目标

  • 解决由透视畸变、非线性空间排列以及字体、颜色和背景的视觉差异引起的不规则场景文本识别挑战。
  • 探索并挖掘基于校正方法的未被充分利用的潜力,这些方法在直觉上合理,但在实践中应用不足。
  • 提升在曲线和任意形状文本基准上的性能,特别是在传统方法难以应对几何复杂性的场景中。
  • 在标准基准上实现最先进性能,并赢得 ICDAR 2019 不规则形状文本挑战赛(拉丁字母)。

提出的方法

  • 该方法采用基于校正的框架,首先估计不规则文本的几何变换,然后对文本行进行归一化,以简化识别过程。
  • 应用一种新颖的数据增强策略,以模拟多样的文本形状和畸变,提升在复杂空间变化下的泛化能力。
  • 训练过程集成了结合识别与校正监督的多任务损失,增强预测文本与真实文本之间的对齐。
  • 通过注意力机制和特征优化模块,对网络架构组件进行优化,以增强对曲率和透视畸变的鲁棒性。
  • 采用端到端可微分的校正方法,实现几何校正与文本识别的联合优化。
  • 利用自适应采样和空间变换网络等技术,稳定训练过程并提高定位精度。

实验结果

研究问题

  • RQ1如何系统性地改进基于校正的方法,以处理自然场景中高度不规则和弯曲的文本?
  • RQ2数据增强、损失函数和模型架构的何种组合能在不规则文本识别中带来最大的性能提升?
  • RQ3一套统一的技术能否在 CUTE-80 和 Total-Text 等多样化基准上持续提升性能?
  • RQ4基于校正的方法在任意形状文本识别任务中,能在多大程度上超越非校正方法?
  • RQ5在 ICDAR 2019 不规则形状文本挑战赛中,哪些具体组件对性能提升贡献最大?

主要发现

  • 所提方法在 CUTE-80 数据集上达到 89.6% 的准确率,相比之前最先进方法提升了 6.3%。
  • 在 Total-Text 数据集上,该方法达到 76.3% 的准确率,相比先前方法提升了 14.7%。
  • 该方法在 ICDAR 2019 不规则形状文本挑战赛(拉丁字母)中获得第一名,其保留测试集上的准确率为 74.3%。
  • Alchemy 中技术的组合在多个基准上均表现出一致的性能提升,表明其在不规则文本识别中的广泛适用性。
  • 消融实验确认,数据增强和损失函数优化是整体性能提升中影响最大的两个组件。
  • 代码和数据样本的公开发布,为基于校正的场景文本识别研究提供了可复现性与进一步研究支持。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。