[论文解读] ICDAR2019 Robust Reading Challenge on Arbitrary-Shaped Text (RRC-ArT)
本论文介绍了 ICDAR2019 鲁棒文本检测挑战赛中的任意形状文本(RRC-ArT)任务,该任务是一个大规模基准数据集,整合了 Total-Text、SCUT-CTW1500 以及百度公司新整理的数据集,旨在解决曲线形与不规则形状文本的检测、识别与定位问题。挑战赛取得了检测任务 82.65%、识别任务 85.32% 和文本定位任务 54.91% 的最高得分,凸显了基于分割的检测方法与基于注意力机制的识别模型在处理任意形状文本方面的主导地位。
This paper reports the ICDAR2019 Robust Reading Challenge on Arbitrary-Shaped Text (RRC-ArT) that consists of three major challenges: i) scene text detection, ii) scene text recognition, and iii) scene text spotting. A total of 78 submissions from 46 unique teams/individuals were received for this competition. The top performing score of each challenge is as follows: i) T1 - 82.65%, ii) T2.1 - 74.3%, iii) T2.2 - 85.32%, iv) T3.1 - 53.86%, and v) T3.2 - 54.91%. Apart from the results, this paper also details the ArT dataset, tasks description, evaluation metrics and participants methods. The dataset, the evaluation kit as well as the results are publicly available at https://rrc.cvc.uab.es/?ch=14
研究动机与目标
- 为解决场景文本识别中任意形状文本(尤其是曲线形与不规则形状)缺乏综合性基准的问题。
- 激励研究社区开发能够检测、识别并定位各种非水平或非多方向排列文本的鲁棒模型。
- 通过将现有数据集(如 Total-Text 和 SCUT-CTW1500)与新收集的高多样性图像结合,扩展为更大、更具代表性的基准数据集。
- 在真实世界条件下,对检测、识别与端到端定位三项任务的最先进方法进行评估与比较。
- 识别当前评估指标(如 IoU)的局限性,并倡导未来工作中采用更优指标(如 TIoU)
提出的方法
- ArT 数据集整合了 Total-Text、SCUT-CTW1500 与一个新收集的百度公司整理数据集,图像来源包括摄像头、互联网与街景图像,强调文本形状与朝向的高多样性。
- 所有文本实例均使用紧密多边形真实标注,以实现对曲线形与不规则文本区域的精确建模。
- 检测任务采用基于分割的模型,其在捕捉复杂文本形状方面优于传统的回归方法。
- 识别任务采用文本矫正后接基于注意力机制的 RNN/LSTM 模块,以处理严重扭曲或不规则的文本区域。
- 文本定位任务通过 IoU 匹配实现检测与识别的联合,识别结果使用 1-N.E.D. 与 H-mean 指标进行评估。
- 评估框架采用多阶段流水线:先进行检测,再与真实标注匹配,最后进行识别,且预处理方式与任务 2 完全一致。
实验结果
研究问题
- RQ1当前模型在检测任意形状文本(尤其是曲线形与不规则朝向实例)方面的表现如何?
- RQ2基于分割的检测方法与基于回归的检测方法在任意形状文本检测准确率上的影响有何差异?
- RQ3基于注意力机制的识别模型在处理严重扭曲或弯曲的文本区域时的有效性如何?
- RQ4端到端文本定位的主要失败模式是什么?其与检测与识别错误的关系如何?
- RQ5当前评估指标(如 IoU)在多大程度上无法反映人类对检测质量的感知?需要哪些改进?
主要发现
- 最高检测得分达到 82.65% 的 F1 值,表明在任意形状文本上表现优异,且基于分割的模型在顶尖提交方案中占据主导地位。
- 最佳识别模型在 T2.2 子任务上达到 85.32% 的准确率,证明了文本矫正与基于注意力机制的识别流程具有高度有效性。
- 最高性能的文本定位方法在任务 3.2 上取得 1-N.E.D. 得分为 54.91%,H-mean 平均值为 44.37%,凸显了该任务的难度。
- 文本定位任务的获胜方法采用基于分割的检测器与基于注意力机制的识别器,类别数达 5,435 个,训练数据涵盖 LSVT、ICDAR2017 与 COCO-Text 等多样化数据集。
- 定位任务中的失败案例通常源于密集或重叠文本区域的误检,尤其在中文文本中更为明显,提示需要引入语言感知建模。
- IoU 指标被发现存在不足,因为即使漏检多个字符,检测结果仍可能获得 100% 的召回率,表明需要采用如 TIoU 等更优指标。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。