[论文解读] ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)
本论文介绍了 ICDAR2017 RCTW-17 竞赛,提出一个大规模数据集,包含 12,263 幅自然场景图像,其中标注了中文文本行,用于场景文本识别。该研究提出两项任务——基于多边形的检测进行文本定位,以及端到端识别,采用 Faster R-CNN 和 CRNN 等先进深度学习模型,在面向野外中文文本的新基准上实现了最先进性能。
Chinese is the most widely used language in the world. Algorithms that read Chinese text in natural images facilitate applications of various kinds. Despite the large potential value, datasets and competitions in the past primarily focus on English, which bares very different characteristics than Chinese. This report introduces RCTW, a new competition that focuses on Chinese text reading. The competition features a large-scale dataset with 12,263 annotated images. Two tasks, namely text localization and end-to-end recognition, are set up. The competition took place from January 20 to May 31, 2017. 23 valid submissions were received from 19 teams. This report includes dataset description, task definitions, evaluation protocols, and results summaries and analysis. Through this competition, we call for more future research on the Chinese text reading problem. The official website for the competition is http://rctw.vlrlab.net
研究动机与目标
- 为解决中文场景文本识别中缺乏大规模、高质量标注数据集的问题,该问题在字符集规模、词切分方式和视觉结构上与英文存在显著差异。
- 通过组织标准化评估协议的竞赛,推动中文文本识别研究,以应对中文文本特有的挑战。
- 建立自然图像中中文文本定位与端到端识别的基准,鼓励开发鲁棒且适用于真实场景的模型。
- 分析检测与识别中的常见失败模式,如长文本行漏检和相似字符误分类,以指导未来研究。
提出的方法
- 收集了一个名为 CTW-12k 的大规模数据集,包含 12,263 幅来自自然场景和数字来源的图像,文本行使用多边形进行标注,并提供 UTF-8 编码的转录文本。
- 采用基于多边形的检测方法进行文本定位,使用 Shapely 库计算预测框与真实框之间的交并比(IoU)以评估重叠程度。
- 检测任务采用改进的 Faster R-CNN,以 ResNet-101 作为主干网络,并引入自顶向下的路径特征融合,以提升小文本检测性能。
- 对于端到端识别,采用基于 CRNN 的模型,包含卷积层与双向 LSTM 层,使用 CTC 损失进行序列建模,无需预先进行字符级标注。
- 基线方法采用 SegLink 进行检测,使用改进的 CRNN 进行识别,模型在大规模合成中文词典数据集上进行预训练。
- 评估采用平均精度(mAP),IoU 阈值为 0.5,结果通过最大化 F-score 的置信度阈值进行筛选,以用于可视化与分析。
实验结果
研究问题
- RQ1现有目标检测框架在自然图像中检测不规则、长条形及小尺寸中文文本行时表现如何?
- RQ2中文文本定位与识别中的主要失败模式是什么,特别是关于透视畸变和字符相似性问题?
- RQ3在真实场景中,文本定位质量在多大程度上影响端到端识别性能?
- RQ4在合成数据上训练的端到端模型能否有效泛化到真实世界中多样化中文场景文本?
- RQ5使用标准检测架构时,检测具有大长宽比或碎片化布局的文本面临哪些关键挑战?
主要发现
- 共有 19 支团队提交有效结果,表明尽管面临独特挑战,中文文本识别仍受到研究社区的广泛关注。
- 检测性能在数字生成图像上显著优于自然图像,原因在于背景更干净、字体更简单。
- 一种常见失败模式是长文本行检测不完整,常因高长宽比区域泛化能力差,导致检测结果碎片化或部分缺失。
- 为最大化召回率,频繁提交低置信度的冗余检测结果,但标准非极大值抑制(NMS)难以有效抑制小范围重叠的误检。
- 即使定位准确,透视畸变和视觉上相似的中文字符混淆仍严重降低识别性能。
- 基线方法在检测任务上达到 mAP 0.781,在识别任务上准确率达到 0.821,为未来模型提供了强有力的基线参考。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。