[论文解读] Billion-scale semi-supervised learning for image classification
这篇论文将半监督学习扩展到数十亿张未标注图像,使用教师/学生管道来提升在像 ResNet-50 和 ResNeXt 这类大架构上的图像分类准确率,在 ImageNet 和其他任务上达到最先进的结果。
This paper presents a study of semi-supervised learning with large convolutional networks. We propose a pipeline, based on a teacher/student paradigm, that leverages a large collection of unlabelled images (up to 1 billion). Our main goal is to improve the performance for a given target architecture, like ResNet-50 or ResNext. We provide an extensive analysis of the success factors of our approach, which leads us to formulate some recommendations to produce high-accuracy models for image classification with semi-supervised learning. As a result, our approach brings important gains to standard architectures for image, video and fine-grained classification. For instance, by leveraging one billion unlabelled images, our learned vanilla ResNet-50 achieves 81.2% top-1 accuracy on the ImageNet benchmark.
研究动机与目标
- 激发并评估面向整个网络规模的图像分类半监督学习。
- 开发可扩展的教师/学生管道以利用数十亿未标注图像。
- 确定影响性能的因素并为高精度模型提供实用建议。
提出的方法
- 在有标签数据上训练高容量的教师模型,以对大规模未标注集合生成预测。
- 对于每个类别,按教师预测对未标注图像排序,选择前K个示例形成新的带标签集合 hat{D}。
- 在 hat{D} 上训练学生模型,可能使用不同的架构以降低测试时复杂度。
- 在原始带标签数据上微调学生模型,以纠正标签噪声并提升泛化能力。
- 也可选择在对大量弱标注数据上用弱监督预训练教师,然后再对未标注图像进行排序。
实验结果
研究问题
- RQ1当将未标注图像扩展到数十亿、覆盖大型CNN架构时,教师/学生半监督管道的表现如何?
- RQ2关键因素有哪些(教师强度、未标注数据规模、采样参数 K 和 P)以最大化准确性提升?
- RQ3使用未标注数据的半监督学习能否在 ImageNet 和其他基准上优于完全有监督训练?
- RQ4在利用未标注数据推断标签后,对真标签的微调的作用是什么?
- RQ5教师的弱监督预训练是否进一步提升结果?
主要发现
- 使用在有标签数据上训练的教师来为每个类别选择前-K个未标注示例,在固定架构下带来显著增益。
- 在从 hat{D} 学习后在真实标签数据上微调学生模型对于实现高准确性至关重要。
- 更大的未标注数据集和更长的预训练提升性能,但对某些模型来说,达到饱和后收益递减。
- 将教师容量提升到某个点可以提高学生准确性;超过该点,增益因 ImageNet 的规模限制而趋于平缓。
- 自训练(教师与学生相同)也有提升,但在给定目标架构下,教师/学生配置通常表现更好。
- 在对 IG-1B-Targeted 进行弱监督预训练后再对未标注数据排序,进一步提升 ImageNet 结果,在若干架构上达到最先进水平。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。