[论文解读] WeText: Scene Text Detection under Weak Supervision
WeText 提出了一种弱监督场景文本检测框架,仅使用 229 张完全标注的图像,通过利用大规模未标注或弱标注数据,训练出高精度的字符检测器。它使用轻量级监督模型从弱监督数据中挖掘正样本字符,结合基于回归的检测方法以减少误差累积,并在极少人工标注的情况下实现了最先进性能。
The requiring of large amounts of annotated training data has become a common constraint on various deep learning systems. In this paper, we propose a weakly supervised scene text detection method (WeText) that trains robust and accurate scene text detection models by learning from unannotated or weakly annotated data. With a "light" supervised model trained on a small fully annotated dataset, we explore semi-supervised and weakly supervised learning on a large unannotated dataset and a large weakly annotated dataset, respectively. For the unsupervised learning, the light supervised model is applied to the unannotated dataset to search for more character training samples, which are further combined with the small annotated dataset to retrain a superior character detection model. For the weakly supervised learning, the character searching is guided by high-level annotations of words/text lines that are widely available and also much easier to prepare. In addition, we design an unified scene character detector by adapting regression based deep networks, which greatly relieves the error accumulation issue that widely exists in most traditional approaches. Extensive experiments across different unannotated and weakly annotated datasets show that the scene text detection performance can be clearly boosted under both scenarios, where the weakly supervised learning can achieve the state-of-the-art performance by using only 229 fully annotated scene text images.
研究动机与目标
- 解决深度学习中完全标注场景文本数据集成本高且稀缺的问题。
- 通过消除独立的候选生成与分类阶段,减少基于字符的场景文本检测中的误差累积。
- 利用弱监督(如词级或文本行级标注)而非昂贵的字符级标注,实现鲁棒文本检测器的有效训练。
- 证明弱监督学习可在极少人工标注数据下实现接近完全监督模型的性能。
提出的方法
- 在少量完全标注的字符图像上训练轻量级监督模型。
- 使用该轻量级模型对大规模未标注或弱标注数据集进行推理,并挖掘正样本字符候选。
- 通过将挖掘出的样本与原始标注数据结合,实施半监督学习以进行再训练。
- 通过利用更易收集的高层级词或文本行级标注来引导字符候选挖掘,实现弱监督学习。
- 设计一种无需提议网络、基于回归的深度神经网络,可在一次前向传播中直接预测字符边界框和文本置信度。
- 将检测与分类步骤整合到一个统一网络中,以最小化误差传播,提升准确率与效率。
实验结果
研究问题
- RQ1当仅有少量完全标注图像时,弱监督学习能否显著提升场景文本检测性能?
- RQ2从未标注或弱标注数据中挖掘正样本字符在提升检测器性能方面有多有效?
- RQ3统一的基于回归的检测器是否在准确率和误差累积方面优于传统的两阶段基于字符的检测流水线?
- RQ4弱监督模型的性能是否会随着弱标注数据集规模的增大而提升?
- RQ5迭代自训练在弱监督场景文本检测中能在多大程度上提升模型性能?
主要发现
- 仅使用 229 张完全标注的字符图像,弱监督的 WeText 模型在 ICDAR 2013 上实现了最先进性能。
- COCO-Text_Weakly_TL 模型优于 FORU_Semi_TL 和 FORU_Weakly_TL,表明更大的弱标注数据集可带来更好的性能。
- 在 SWT 数据集上,所提方法通过弱监督学习将 F-score 提升至 59.8%,超过基线(53.9%)及其他先前方法。
- 经过两轮迭代自训练,弱监督模型的 F-score 从 85.4% 提升至 86.2%,接近完全监督模型的性能(86.2% vs. 86.4%)。
- 该模型在 Titan X GPU 上每张图像处理时间为 0.32 秒,展现出强大的实时应用潜力。
- 定性结果表明,召回率显著提升,且误报大幅减少,尤其在使用更大规模的弱标注数据集(如 COCO-Text)进行训练时更为明显。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。