[论文解读] Unsupervised Learning of Visual Features by Contrasting Cluster Assignments
本文提出 SwAV,一种基于在线聚类的自监督方法,通过对同一图像的多个视图预测聚类代码,在不需要大规模内存库或动量编码器的情况下,达到强劲的 ImageNet 结果和迁移性能。它还引入多裁剪增强以高效增加视图数量。
Unsupervised image representations have significantly reduced the gap with supervised pretraining, notably with the recent achievements of contrastive learning methods. These contrastive methods typically work online and rely on a large number of explicit pairwise feature comparisons, which is computationally challenging. In this paper, we propose an online algorithm, SwAV, that takes advantage of contrastive methods without requiring to compute pairwise comparisons. Specifically, our method simultaneously clusters the data while enforcing consistency between cluster assignments produced for different augmentations (or views) of the same image, instead of comparing features directly as in contrastive learning. Simply put, we use a swapped prediction mechanism where we predict the cluster assignment of a view from the representation of another view. Our method can be trained with large and small batches and can scale to unlimited amounts of data. Compared to previous contrastive methods, our method is more memory efficient since it does not require a large memory bank or a special momentum network. In addition, we also propose a new data augmentation strategy, multi-crop, that uses a mix of views with different resolutions in place of two full-resolution views, without increasing the memory or compute requirements much. We validate our findings by achieving 75.3% top-1 accuracy on ImageNet with ResNet-50, as well as surpassing supervised pretraining on all the considered transfer tasks.
研究动机与目标
- 开发一个在线、可扩展的自监督方法,在无需标签的情况下学习视觉表示。
- 通过对比不同视图之间的聚类分配,消除对成对特征比较的需求。
- 通过多裁剪策略改进数据增强,在不增加额外成本的情况下增加视图数量。
- 展示在下游视觉任务上的强迁移能力,以及对批量大小约束的鲁棒性。
提出的方法
- 通过将图像特征映射到 K 个原型并在同一图像的两个增强视图之间执行交换预测,计算在线聚类分配。
- 通过对视图之间的代码交换,优化联合损失:L(z_t, q_s) + L(z_s, q_t),对原型相似性进行 softmax 及温度 tau。
- 通过带有小批量约束的 online Sinkhorn-Knopp 最优化求解软分配 Q,以确保原型之间的等分配。
- 将特征表示在单位球面上,并通过反向传播与编码器 f_theta 共同学习原型 C。
- 引入多裁剪增强以生成多个视图,包括 V 个低分辨率裁剪,同时仅对全分辨率裁剪计算码。
- 在批量大小受限时,在线方式使用基于小批量的码和一个小的特征队列,避免大内存库和动量编码器。
实验结果
研究问题
- RQ1在线聚类配对分配是否能够匹配或超过对比学习方法在自监督视觉表示学习中的表现?
- RQ2多裁剪增强策略是否在不增加内存或计算需求的前提下提升性能?
- RQ3相较于有监督预训练,在线原型编码在下游任务上的迁移表现如何?
- RQ4SwAV 在小批量、且不需要动量编码器或大内存库时是否有效?
- RQ5训练时长和数据规模(有筛选与无筛选)对无监督预训练质量有何影响?
主要发现
- SwAV 在 ImageNet 的 ResNet-50 上线性评估达到 75.3% 的 top-1 准确率。
- SwAV 在迁移任务上优于此前的自监督方法,在多个数据集上超越有监督的 ImageNet 预训练。
- 该方法在小批量下仍然表现强劲,不需要动量编码器或大内存库。
- 多裁剪增强在多种自监督方法中均带来持续的 2–4% 增益。
- 将在线聚类与多裁剪以及更大架构结合,在若干下游任务上缩小甚至超过有监督预训练的差距。
- 使用 SwAV 在未筛选数据上的预训练相较随机初始化有提升,并与 SimCLR 具有竞争力,显示出对数据和模型规模的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。