[论文解读] Unsupervised Representation Learning by Predicting Image Rotations
本文通过训练卷积神经网络预测 0/90/180/270 度旋转来学习语义图像特征,在 CIFAR-10、ImageNet、PASCAL、Places 的无监督迁移和半监督结果上达到最先进水平。
Over the last years, deep convolutional neural networks (ConvNets) have transformed the field of computer vision thanks to their unparalleled capacity to learn high level semantic image features. However, in order to successfully learn those features, they usually require massive amounts of manually labeled data, which is both expensive and impractical to scale. Therefore, unsupervised semantic feature learning, i.e., learning without requiring manual annotation effort, is of crucial importance in order to successfully harvest the vast amount of visual data that are available today. In our work we propose to learn image features by training ConvNets to recognize the 2d rotation that is applied to the image that it gets as input. We demonstrate both qualitatively and quantitatively that this apparently simple task actually provides a very powerful supervisory signal for semantic feature learning. We exhaustively evaluate our method in various unsupervised feature learning benchmarks and we exhibit in all of them state-of-the-art performance. Specifically, our results on those benchmarks demonstrate dramatic improvements w.r.t. prior state-of-the-art approaches in unsupervised representation learning and thus significantly close the gap with supervised feature learning. For instance, in PASCAL VOC 2007 detection task our unsupervised pre-trained AlexNet model achieves the state-of-the-art (among unsupervised methods) mAP of 54.4% that is only 2.4 points lower from the supervised case. We get similarly striking results when we transfer our unsupervised learned features on various other tasks, such as ImageNet classification, PASCAL classification, PASCAL segmentation, and CIFAR-10 classification. The code and models of our paper will be published on: https://github.com/gidariss/FeatureLearningRotNet .
研究动机与目标
- 在无需人工标注的情况下,推动无监督语义特征学习。
- 提出一个自我监督任务:在 0/90/180/270 度之间预测图像旋转。
- 证明基于旋转的监督能在不同数据集和任务之间产生可迁移的特征。
- 在 CIFAR-10、ImageNet、PASCAL VOC 和 Places205 的监督、半监督和迁移设置下进行评估。
- 展示学习到的特征在若干任务上的表现接近监督性能。
提出的方法
- 定义一组 K 个离散几何变换 G,作为以 90 度为倍数的图像旋转(0、90、180、270)。
- 训练一个卷积神经网络 F(.) 以在给定旋转后的图像 X^y 时预测旋转标签 y,形成一个 4 类分类任务。
- 在 N 张图像上优化损失:loss(X_i,θ) = - (1/K) sum_y log(F^y(g(X_i|y)|θ)).
- 使用翻转和转置操作实现旋转,以避免低级伪影。
- 可视化注意力图和第一层滤波器,以论证旋转预测需要语义理解。
- 通过将 RotNet 特征迁移到 CIFAR-10、ImageNet、PASCAL VOC 和 Places205 任务来评估。
- 将 RotNet 与先前的无监督方法及监督基线进行比较,包括半监督设置。
实验结果
研究问题
- RQ1一个简单的自监督任务——预测图像旋转,是否能够学习到语义上有意义的特征?
- RQ2基于旋转的特征在不同数据集上的图像分类、检测和分割任务中的迁移表现如何?
- RQ3模型深度和旋转类别数量对特征质量有何影响?
- RQ4在半监督学习设置下,基于旋转的特征与完全监督基线相比的表现如何?
- RQ5学习到的特征是否需要大量预处理或避免特殊伪迹?
主要发现
- RotNet 在 CIFAR-10、ImageNet、PASCAL VOC、Places205 的无监督方法中达到最先进的结果。
- 在 CIFAR-10 上,使用 4 块网络的 RotNet 特征在非线性分类器下可达到最高 89.06% 的准确率,接近监督性能(92.80%)。
- RotNet 特征在 ImageNet top-1 分类上的非线性和线性探针都提供强健的迁移,显著超越先前的无监督方法。
- 在半监督 CIFAR-10 实验中,当每个类别的标记数据稀缺(低于约 1000 个样本)时,基于 RotNet 的特征优于监督对照组。
- 在 ImageNet 上学习的 RotNet 特征有效迁移到 PASCAL VOC 的分类/检测和 Places 的分类任务,相比先前的无监督方法有显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。