[论文解读] Momentum Contrast for Unsupervised Visual Representation Learning
MoCo 引入基于队列的动态字典和动量更新的键编码器,以实现大规模、稳定的一致对比学习用于无监督视觉表征;它在 ImageNet 线性准确度方面具有竞争力,并在检测/分割任务上具有强传输性能,在若干设置中超越有监督预训练。
We present Momentum Contrast (MoCo) for unsupervised visual representation learning. From a perspective on contrastive learning as dictionary look-up, we build a dynamic dictionary with a queue and a moving-averaged encoder. This enables building a large and consistent dictionary on-the-fly that facilitates contrastive unsupervised learning. MoCo provides competitive results under the common linear protocol on ImageNet classification. More importantly, the representations learned by MoCo transfer well to downstream tasks. MoCo can outperform its supervised pre-training counterpart in 7 detection/segmentation tasks on PASCAL VOC, COCO, and other datasets, sometimes surpassing it by large margins. This suggests that the gap between unsupervised and supervised representation learning has been largely closed in many vision tasks.
研究动机与目标
- 将无监督视觉表征学习动机化为有效的字典式对比学习。
- 开发一种机制,构建一个在训练过程中保持一致的大型、不断演化的字典。
- 展示一个动量更新的编码器能够为对比学习维持稳定的键。
- 证明使用 MoCo 的无监督预训练能够良好地迁移到下游视觉任务。
- 研究数据规模(数据量)和字典设计如何影响无监督学习性能。
提出的方法
- 将对比学习视为带有查询与一组键的字典查找。
- 将字典维护为与小批量大小解耦的队列,以允许使用大型字典。
- 使用键编码器的动量更新以在训练中保持键的一致性:θ_k ← m θ_k + (1 − m) θ_q。
- 将同一图像的两个随机视图用作正样本对,其它键作为负样本,使用 InfoNCE 损失。
- 采用在训练时进行打乱的批量归一化,以防止信息泄漏并提升表征质量。
- 可选地在 ImageNet-1M 或十亿张 Instagram 图像上进行预训练,以测试可扩展性和真实世界数据的适用性。
实验结果
研究问题
- RQ1一个大型、动态更新的字典是否能提升对比无监督学习的性能?
- RQ2动量更新的键编码器是否比端到端或记忆库方法提供更好的键一致性?
- RQ3MoCo 的无监督预训练在 ImageNet 及下游检测/分割任务上与 ImageNet 有监督预训练的对比如何?
- RQ4数据规模(ImageNet-1M 与 IG-1B)对 MoCo 表征的迁移性能有何影响?
主要发现
- 在标准协议下,MoCo 在 ImageNet 线性分类任务中取得竞争性准确率。
- 通过队列实现的大型字典结合动量更新的键编码器,可带来更好的特征一致性和学习稳定性。
- 在可比的迁移协议下,MoCo 预训练在若干检测/分割任务(如 PASCAL VOC、COCO)上优于 ImageNet 有监督预训练。
- MoCo 能很好地扩展到十亿级未经过滤的数据(IG-1B),并保持强劲的迁移性能。
- 动量(m 近似 0.999)对字典一致性和学习成功至关重要;m 太小会降低性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。