[论文解读] Barlow Twins: Self-Supervised Learning via Redundancy Reduction
Barlow Twins 引入一种自监督目标,通过让双嵌入的分量去相关同时保持不变性,能够在不需要大批量或不对称网络设计的情况下获得有效表示。在若干 ImageNet 基准测试中达到与现有方法相当甚至更优,特别是在高维嵌入方面。
Self-supervised learning (SSL) is rapidly closing the gap with supervised methods on large computer vision benchmarks. A successful approach to SSL is to learn embeddings which are invariant to distortions of the input sample. However, a recurring issue with this approach is the existence of trivial constant solutions. Most current methods avoid such solutions by careful implementation details. We propose an objective function that naturally avoids collapse by measuring the cross-correlation matrix between the outputs of two identical networks fed with distorted versions of a sample, and making it as close to the identity matrix as possible. This causes the embedding vectors of distorted versions of a sample to be similar, while minimizing the redundancy between the components of these vectors. The method is called Barlow Twins, owing to neuroscientist H. Barlow's redundancy-reduction principle applied to a pair of identical networks. Barlow Twins does not require large batches nor asymmetry between the network twins such as a predictor network, gradient stopping, or a moving average on the weight updates. Intriguingly it benefits from very high-dimensional output vectors. Barlow Twins outperforms previous methods on ImageNet for semi-supervised classification in the low-data regime, and is on par with current state of the art for ImageNet classification with a linear classifier head, and for transfer tasks of classification and object detection.
研究动机与目标
- 在没有标注的情况下,为视觉表示激励自监督学习 (SSL)。
- 提出一个有据可循的目标函数,在不需要不对称性的前提下避免坍缩解。
- 利用冗余度降低来去相关嵌入分量,同时保持不变量性。
- 证明对批量大小的鲁棒性并探索高维嵌入的潜在优势。
提出的方法
- 对每个图像计算两个扭曲视图,并通过相同的网络进行处理。
- 在双胞输出之间形成一个互相关矩阵并使其尽量趋近于单位矩阵。
- 将损失分解为不变性项(对角线部分)和冗余度降低项(非对角线部分),并设定权衡参数 lambda。
- 使用 ResNet-50 编码器和一个三层、维度为 8192 的投射器;按批次对嵌入进行归一化;在大规模 ImageNet 预训练中使用 LARS 进行优化。
- 表明该方法在小批量大小可达到 256 的情况下仍然有效,并且从高维嵌入中受益。
实验结果
研究问题
- RQ1一个简单的、对称的双网络目标是否可以在不需要不对称性或大批量需求的情况下避免坍缩?
- RQ2冗余度降低如何影响嵌入去相关性以及下游迁移性能?
- RQ3嵌入维度和投射器深度对自监督学习质量的影响是什么?
- RQ4与基于 InfoNCE 的方法相比,该方法对批量大小和数据增强选择有鲁棒性吗?
主要发现
- Barlow Twins 使用 ResNet-50 编码器实现了具有竞争力的 ImageNet 线性 Top-1 精度(73.2%)。
- 在标注比例低于 1% 和 10% 的设置下,该方法在半监督 ImageNet 上与竞争的 SSL 方法相当或略超。
- 迁移结果在 Places-205、VOC07 和 iNaturalist18 上显示出对线性固定表示的竞争性表现。
- 在目标检测和实例分割方面,Barlow Twins 的性能与若干 SOTA 方法相当或更好。
- 消融研究表明不变性项和冗余度项均有必要;该方法对小批量大小保持鲁棒,并且从高维嵌入中获益。
- 增加投射器维度继续提升性能,与某些其他自监督方法不同。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。