QUICK REVIEW

[论文解读] Billion-scale semi-supervised learning for image classification

İsmet Zeki Yalnız, Hervé Jeǵou|arXiv (Cornell University)|May 2, 2019

Advanced Image and Video Retrieval Techniques参考文献 42被引用 331

一句话总结

这篇论文将半监督学习扩展到数十亿张未标注图像，使用教师/学生管道来提升在像 ResNet-50 和 ResNeXt 这类大架构上的图像分类准确率，在 ImageNet 和其他任务上达到最先进的结果。

ABSTRACT

This paper presents a study of semi-supervised learning with large convolutional networks. We propose a pipeline, based on a teacher/student paradigm, that leverages a large collection of unlabelled images (up to 1 billion). Our main goal is to improve the performance for a given target architecture, like ResNet-50 or ResNext. We provide an extensive analysis of the success factors of our approach, which leads us to formulate some recommendations to produce high-accuracy models for image classification with semi-supervised learning. As a result, our approach brings important gains to standard architectures for image, video and fine-grained classification. For instance, by leveraging one billion unlabelled images, our learned vanilla ResNet-50 achieves 81.2% top-1 accuracy on the ImageNet benchmark.

研究动机与目标

激发并评估面向整个网络规模的图像分类半监督学习。
开发可扩展的教师/学生管道以利用数十亿未标注图像。
确定影响性能的因素并为高精度模型提供实用建议。

提出的方法

在有标签数据上训练高容量的教师模型，以对大规模未标注集合生成预测。
对于每个类别，按教师预测对未标注图像排序，选择前K个示例形成新的带标签集合 hat{D}。
在 hat{D} 上训练学生模型，可能使用不同的架构以降低测试时复杂度。
在原始带标签数据上微调学生模型，以纠正标签噪声并提升泛化能力。
也可选择在对大量弱标注数据上用弱监督预训练教师，然后再对未标注图像进行排序。

实验结果

研究问题

RQ1当将未标注图像扩展到数十亿、覆盖大型CNN架构时，教师/学生半监督管道的表现如何？
RQ2关键因素有哪些（教师强度、未标注数据规模、采样参数 K 和 P）以最大化准确性提升？
RQ3使用未标注数据的半监督学习能否在 ImageNet 和其他基准上优于完全有监督训练？
RQ4在利用未标注数据推断标签后，对真标签的微调的作用是什么？
RQ5教师的弱监督预训练是否进一步提升结果？

主要发现

使用在有标签数据上训练的教师来为每个类别选择前-K个未标注示例，在固定架构下带来显著增益。
在从 hat{D} 学习后在真实标签数据上微调学生模型对于实现高准确性至关重要。
更大的未标注数据集和更长的预训练提升性能，但对某些模型来说，达到饱和后收益递减。
将教师容量提升到某个点可以提高学生准确性；超过该点，增益因 ImageNet 的规模限制而趋于平缓。
自训练（教师与学生相同）也有提升，但在给定目标架构下，教师/学生配置通常表现更好。
在对 IG-1B-Targeted 进行弱监督预训练后再对未标注数据排序，进一步提升 ImageNet 结果，在若干架构上达到最先进水平。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。