[论文解读] Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination
通过非参数地区分每个实例来学习无监督的图像表示,使用记忆库嵌入和对比噪声估计,在 ImageNet 和 Places 上取得强劲结果,并能良好迁移到半监督学习和目标检测。
Neural net classifiers trained on data with annotated class labels can also capture apparent visual similarity among categories without being directed to do so. We study whether this observation can be extended beyond the conventional domain of supervised learning: Can we learn a good feature representation that captures apparent similarity among instances, instead of classes, by merely asking the feature to be discriminative of individual instances? We formulate this intuition as a non-parametric classification problem at the instance-level, and use noise-contrastive estimation to tackle the computational challenges imposed by the large number of instance classes. Our experimental results demonstrate that, under unsupervised learning settings, our method surpasses the state-of-the-art on ImageNet classification by a large margin. Our method is also remarkable for consistently improving test performance with more training data and better network architectures. By fine-tuning the learned feature, we further obtain competitive results for semi-supervised learning and object detection tasks. Our non-parametric model is highly compact: With 128 features per image, our method requires only 600MB storage for a million images, enabling fast nearest neighbour retrieval at the run time.
研究动机与目标
- 通过区分单个实例而非语义类别来激励学习图像表示。
- 开发用于大规模实例辨别的可扩展非参数 softmax 分类器。
- 使用对比噪声估计和近端正则化来稳定训练。
- 展示所学特征在半监督学习和目标检测中的泛化能力。
- 展示学习得到的128维嵌入的高效性和紧凑性。
提出的方法
- 将实例级辨别表述为对所有训练实例的非参数 softmax,特征为 L2 归一化。
- 维护一个实例嵌入的记忆库 V,用于在不存储逐类权重的情况下计算 P(i|v)。
- 使用噪声对比估计(NCE)用噪声分布近似 softmax,将每个样本的代价从 O(n) 降至 O(1)。
- 应用近端正则化通过在迭代中对表示的显著变化进行惩罚来稳定优化。
- 使用与记忆库嵌入的余弦相似度的最近k邻居对测试图像进行分类,从而在训练和测试之间实现一致性。
实验结果
研究问题
- RQ1在无监督设定下辨别单个实例是否能够学习出保留明显实例相似性的特征空间?
- RQ2在无监督特征学习中,带记忆库的非参数 softmax 是否优于带参数 softmax?
- RQ3NCE 和近端正则化如何影响训练稳定性与表示质量?
- RQ4所学特征是否能很好地迁移到半监督任务和目标检测?
主要发现
- 带实例记忆库的非参数 softmax 相对于带参数 softmax,在 CIFAR-10 分类上取得显著提升。
- 在 ImageNet 上,该方法在线性评估下达到 46.5% 的 top-1 精度,在不同架构下使用 kNN 的范围为 41.0–46.5%,超越若干无监督基线。
- 该方法在 Places205 上具有较强的泛化能力,top-1 取值在 41.6–45.5% 之间,依赖于协议和架构。
- 嵌入维度约为 128,提供紧凑表示:100 万张图像约 600 MB,最近邻检索速度快(约每张图像 ~20 ms)。
- 在标注数据有限的半监督学习中收益显著,往往超过在同一小子集标注数据上训练的监督学习。
- 在目标检测方面,在 PASCAL VOC 2007 上达到具竞争力的 mAP,随着网络变深而提升(例如 ResNet-50 时 mAP 为 65.4%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。