QUICK REVIEW

[论文解读] How Does SimSiam Avoid Collapse Without Negative Samples? A Unified Understanding with Self-supervised Contrastive Learning

Chaoning Zhang, Kang Zhang|arXiv (Cornell University)|Mar 30, 2022

Face and Expression Recognition被引用 24

一句话总结

这篇论文通过将表示分解为中心和残差分量，分析了为什么 SimSiam 在没有负样本的情况下不会崩溃，展示去中心化和去相关的作用，并将此视角与 InfoNCE 统一起来；它还演示了预测器简化以防止崩溃。

ABSTRACT

To avoid collapse in self-supervised learning (SSL), a contrastive loss is widely used but often requires a large number of negative samples. Without negative samples yet achieving competitive performance, a recent work has attracted significant attention for providing a minimalist simple Siamese (SimSiam) method to avoid collapse. However, the reason for how it avoids collapse without negative samples remains not fully clear and our investigation starts by revisiting the explanatory claims in the original SimSiam. After refuting their claims, we introduce vector decomposition for analyzing the collapse based on the gradient analysis of the $l_2$-normalized representation vector. This yields a unified perspective on how negative samples and SimSiam alleviate collapse. Such a unified perspective comes timely for understanding the recent progress in SSL.

研究动机与目标

为 SimSiam 在没有负样本的情况下避免崩溃提供一个严格的解释。
批评现有关于 stop-gradient 和预测器在 SimSiam 中作用的说法。
开发一个向量分解框架（中心和残差）来分析崩溃机制。
展示额外梯度分量（中心和残差）如何防止崩溃，并与去中心化和去相关相关联。
提出预测器简化以实现更易解释和更稳定的训练。

提出的方法

重新审视 SimSiam 的解释性论断并发现推理中的缺陷。
引入对归一化表示 Z 的向量分解成中心 o 和残差 r（Z = o + r）。
分析梯度分量，展示中心和残差部分如何通过去中心化和去相关来影响崩溃。
与 InfoNCE 进行比较，以展示跨自监督学习方法中去中心化和去相关的统一视角。
在玩具或相似情形的设置中进行实验，以分离梯度分量（o_e 和 r_e）及其对崩溃的影响。
提出预测器简化（例如仅一个偏置层）以保持对崩溃的避免。

实验结果

研究问题

RQ1stop-gradient 和预测器分量如何促成 SimSiam 的避免崩溃，以及先前的解释是否有效？
RQ2中心-残余向量分解是否能解释在 Siamese 自监督学习架构中崩溃何时以及如何发生或被避免？
RQ3SimSiam 的额外梯度与去中心化和去相关机制之间的关系是什么？
RQ4InfoNCE 中的负样本如何引发与 SimSiam 相似的去中心化和去相关效应？
RQ5在不牺牲避免崩溃和性能的前提下，预测器的复杂度能否降低？

主要发现

一个朴素的 Siamese 架构会崩溃，但具有预测器和 stop-gradient 的非对称架构可以避免崩溃。
向量分解 Z = o + r 显示中心分量 o 倾向于去中心化，残差分量 r 促进去相关，二者都帮助避免崩溃。
SimSiam 中的额外梯度，通过 h^{-1}（逆预测器）处理，或通过去中心化和去相关效应处理，是防止崩溃的关键；用 h^{-1} 处理优化目标有益，而用 h 处理则可能导致崩溃。
InfoNCE 的额外梯度具有类似的去中心化和去相关结构，将 SimSiam 的行为与带负样本的对比学习框架联系起来。
将预测器简化为单一偏置层即可保持避免崩溃，L2 归一化步骤对于启用去中心化和去相关机制至关重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。