[论文解读] Exploring Simple Siamese Representation Learning
SimSiam 表明简单的 Siamese 网络在没有负样本、没有大批量训练或动量编码器的情况下,也能学习有意义的表征,这要归功于 stop-gradient;在 ImageNet 和迁移任务上达到具有竞争力的结果。
Siamese networks have become a common structure in various recent models for unsupervised visual representation learning. These models maximize the similarity between two augmentations of one image, subject to certain conditions for avoiding collapsing solutions. In this paper, we report surprising empirical results that simple Siamese networks can learn meaningful representations even using none of the following: (i) negative sample pairs, (ii) large batches, (iii) momentum encoders. Our experiments show that collapsing solutions do exist for the loss and structure, but a stop-gradient operation plays an essential role in preventing collapsing. We provide a hypothesis on the implication of stop-gradient, and further show proof-of-concept experiments verifying it. Our "SimSiam" method achieves competitive results on ImageNet and downstream tasks. We hope this simple baseline will motivate people to rethink the roles of Siamese architectures for unsupervised representation learning. Code will be made available.
研究动机与目标
- 在无监督表示学习中重新思考 Siamese 架构的动机。
- 研究简单的 Siamese 设置是否能在没有常见保护措施(负样本、大批量、动量)的情况下避免崩溃。
- 表征 stop-gradient 及其他体系结构组件在防止崩溃中的作用。
- 提供经验证据和一个将 SimSiam 与 EM 式优化过程联系起来的假设。
提出的方法
- 对每张图像的两个增强视图,通过一个共享编码器 f(骨干网络 + 投影 MLP)进行处理。
- 对一个分支应用预测器 M 以产生 p,另一分支产生 z;损失最小化 p 与 stopgrad(z) 之间的负余弦相似性以及对称对之间的相似性。
- 对一个分支应用 stop-gradient,以防止梯度通过其视图流动,从而防止崩溃。
- 损失对两个非对称项进行对称化处理,即取两项的平均。
- 训练使用标准的 SGD,批量大小为 512,同步 BN,以及一个 3 层投影 MLP 加一个 2 层预测器。
- 评估基于对冻结表征的 ImageNet 线性分类,并对批量大小、BN、相似性函数和对称化进行额外消融研究。
实验结果
研究问题
- RQ1一个 Siamese 网络在没有负样本、大批量或动量编码器的情况下能学习有意义的表征吗?
- RQ2在简单的 Siamese 设置中,哪种机制(如 stop-gradient)能防止崩溃?
- RQ3像预测器、批量归一化及相似性度量等体系结构选择如何影响性能和崩溃倾向?
- RQ4学习得到的表征如何迁移到 ImageNet 以外的下游任务?
- RQ5可以用何种理论视角解释 SimSiam 的行为及其与现有方法的关系?
主要发现
- stop-gradient 是避免崩溃的关键,即使在没有负样本或动量编码器的情况下,也能实现非平凡的 ImageNet 线性精度(实验中 67% 以上)。
- 预测器 MLP 对成功是必要的;移除或固定其参数会显著降低准确度。
- 大范围的批量大小均表现良好,表明不需要非常大的批量;64–2048 的批量大小也能产生具有竞争力的结果。
- 在投影头和预测头中使用 BN 能改善优化与准确度;投影头输出处的 BN 有益,而预测器输出处的 BN 则不。
- 余弦相似性和类似交叉熵的相似性都能工作,实验中通常以余弦表现更好。
- 对称化可以提高准确度,但并非防止崩溃的必要条件;stop-gradient 是防止崩溃的关键机制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。