QUICK REVIEW

[论文解读] Towards Unconstrained End-to-End Text Spotting

Siyang Qin, Alessandro Bissacco|arXiv (Cornell University)|Aug 24, 2019

Handwritten Text Recognition Techniques参考文献 58被引用 23

一句话总结

本文提出了一种端到端的文本检测与识别模型，通过使用Mask R-CNN进行实例分割，并采用基于注意力的解码器直接处理未经校正的不规则文本区域，实现对任意形状文本的检测与识别。通过引入RoI掩码并利用预训练OCR引擎生成的弱标签数据，该方法在ICDAR15上超越之前的工作4.6%，在Total-Text上超越超过16%，达到当前最先进水平。

ABSTRACT

We propose an end-to-end trainable network that can simultaneously detect and recognize text of arbitrary shape, making substantial progress on the open problem of reading scene text of irregular shape. We formulate arbitrary shape text detection as an instance segmentation problem; an attention model is then used to decode the textual content of each irregularly shaped text region without rectification. To extract useful irregularly shaped text instance features from image scale features, we propose a simple yet effective RoI masking step. Additionally, we show that predictions from an existing multi-step OCR engine can be leveraged as partially labeled training data, which leads to significant improvements in both the detection and recognition accuracy of our model. Our method surpasses the state-of-the-art for end-to-end recognition tasks on the ICDAR15 (straight) benchmark by 4.6%, and on the Total-Text (curved) benchmark by more than 16%.

研究动机与目标

为解决现有方法在处理不规则形状文本时面临的端到端文本检测与识别开放问题。
通过直接将未经校正的文本特征输入识别器，消除检测与识别之间对特征校正的需求。
利用现有多步OCR引擎自动生成的弱标签数据，提升模型性能。
开发一种灵活的、可端到端训练的架构，通过共享特征联合优化检测与识别分支。

提出的方法

使用Mask R-CNN作为检测器，预测任意形状文本实例的轴对齐边界框与分割掩码。
采用序列到序列的注意力解码器，直接从未经校正的掩码文本特征中识别文本，无需几何归一化。
引入RoI掩码步骤，从特征图中提取不规则形状的文本实例特征，实现无需校正的直接识别。
利用预训练多步OCR引擎（如Google Cloud Vision API）生成的弱标签数据，辅助识别分支的训练。
采用单步训练策略，联合优化检测与识别分支，同时利用完全标注与弱标签数据。
在检测与识别分支之间共享相同的CNN主干网络，以提升特征学习效果与计算效率。

实验结果

研究问题

RQ1端到端模型是否能在不进行特征几何校正的情况下，检测并识别任意形状的文本？
RQ2利用现有OCR引擎生成的弱标签数据，对端到端文本检测与识别模型的性能有何影响？
RQ3与传统校正方法相比，RoI掩码是否能提升对不规则形状文本的识别准确率？
RQ4检测与识别分支的联合训练是否能提升特征表示能力，超越仅训练检测分支的效果？

主要发现

在ICDAR15（直线文本）基准上，模型实现了59.5%的端到端F值，超越之前最先进方法4.6%。
在Total-Text（弯曲文本）基准上，模型性能超越最先进水平超过16%，展现出对不规则形状的强大泛化能力。
使用弱标签数据显著提升了识别性能，即使检测分支未直接在这些数据上进行训练。
当使用ResNet-50主干网络并结合弱标签数据时，RoI掩码使端到端AP提升3.3个百分点。
单步训练在检测与端到端评估中均优于两步训练，表明优化效果更佳且特征学习更优。
使用ResNet-50主干网络时，单张图像的推理时间为210毫秒，识别分支仅增加30毫秒开销，表明计算效率较高。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。