Skip to main content
QUICK REVIEW

[论文解读] Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes

Pengyuan Lyu, Minghui Liao|arXiv (Cornell University)|Jul 6, 2018
Handwritten Text Recognition Techniques参考文献 90被引用 46
一句话总结

引入 Mask TextSpotter,一种受 Mask R-CNN 启发的端到端可训练网络,通过在统一框架中执行实例分割和字符分割来检测和识别任意形状的场景文本。它在水平、定向和曲线文本基准上达到最先进的结果。

ABSTRACT

Recently, models based on deep neural networks have dominated the fields of scene text detection and recognition. In this paper, we investigate the problem of scene text spotting, which aims at simultaneous text detection and recognition in natural images. An end-to-end trainable neural network model for scene text spotting is proposed. The proposed model, named as Mask TextSpotter, is inspired by the newly published work Mask R-CNN. Different from previous methods that also accomplish text spotting with end-to-end trainable deep neural networks, Mask TextSpotter takes advantage of simple and smooth end-to-end learning procedure, in which precise text detection and recognition are acquired via semantic segmentation. Moreover, it is superior to previous methods in handling text instances of irregular shapes, for example, curved text. Experiments on ICDAR2013, ICDAR2015 and Total-Text demonstrate that the proposed method achieves state-of-the-art results in both scene text detection and end-to-end text recognition tasks.

研究动机与目标

  • 推动端到端文本识别,处理不规则文本形状(水平、定向、曲线)。
  • 开发一个统一框架,通过分割同时检测文本实例并识别字符。
  • 利用实例分割来避免对识别所需的精确边界框的依赖。
  • 提供一种训练过程,使得可以在没有类似课程式冻结的情况下实现完全端到端优化。
  • 在多样化基准上进行评估,以展示在文本形状和词汇表设置上的鲁棒性。

提出的方法

  • 采用类似 Mask R-CNN 的架构并以特征金字塔为骨干(ResNet-50 + FPN)。
  • 使用 RPN 生成文本候选区域,并使用 RoI Align 获取精确的区域特征。
  • 引入一个掩膜分支,生成全局文本实例图以及36个字符概率图再加上字符背景图(38 通道输出)。
  • 优化一个多任务损失,结合 RPN、Fast R-CNN,以及一个两部分的掩膜损失(全局文本和字符分割)。
  • 通过将多边形转换为水平矩形并创建全局/字符图来为 RPN/RCNN 和掩膜分支生成目标;在推理阶段使用像素投票算法将字符区域解码为序列。
  • 在推理阶段,使用 Fast R-CNN 提案生成全局和字符图,然后通过轮廓提取和像素投票提取文本多边形和序列;使用带权重的编辑距离来改进基于词汇表的解码。

实验结果

研究问题

  • RQ1一个单一的、端到端可训练的模型是否能够在自然图像中联合检测和识别任意形状的文本?
  • RQ2基于实例/字符分割的检测是否在水平、定向和曲线文本上超过先前的两阶段或部分端到端方法?
  • RQ3对于不规则文本,识别是否可以有效地在二维分割空间中完成,而不是一维序列?
  • RQ4共享特征的联合优化是否能同时提高检测和识别的准确性?
  • RQ5在标准基准(ICDAR2013、ICDAR2015、Total-Text)上,在有词汇表和无词汇表的情况下,该方法的表现如何?

主要发现

  • 在 ICDAR2013、ICDAR2015 和 Total-Text 的文本检测和端到端文本识别方面取得了最先进的结果。
  • 在端到端识别上优于先前方法,并在曲线文本上显示出强劲表现,不仅仅是水平/定向文本。
  • 证明文本可以通过实例分割准确检测并通过二维字符图识别,从而实现无需课程学习的端到端训练。
  • 推理阶段在字符图上使用像素投票方案重建字符序列,并辅以带权编辑距离进行基于词汇表的解码。
  • 提供了一个实用的速度-精度权衡(约 6.9 FPS),与现有方法相比具有竞争力的精度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。