[论文解读] Debiased Contrastive Learning
该论文提出了一种去偏对比学习目标,通过隐式近似真正不同类的负样本的分布,纠正了从完整数据分布中采样负样本时常见的采样偏差问题(该分布可能包含同标签样本)。该方法在无需标签的情况下,在视觉、语言和强化学习基准上均提升了性能,同时在理论上将去偏损失与下游分类任务的一般化界联系起来。
A prominent technique for self-supervised representation learning has been to contrast semantically similar and dissimilar pairs of samples. Without access to labels, dissimilar (negative) points are typically taken to be randomly sampled datapoints, implicitly accepting that these points may, in reality, actually have the same label. Perhaps unsurprisingly, we observe that sampling negative examples from truly different labels improves performance, in a synthetic setting where labels are available. Motivated by this observation, we develop a debiased contrastive objective that corrects for the sampling of same-label datapoints, even without knowledge of the true labels. Empirically, the proposed objective consistently outperforms the state-of-the-art for representation learning in vision, language, and reinforcement learning benchmarks. Theoretically, we establish generalization bounds for the downstream classification task.
研究动机与目标
- 为解决从完整数据分布中采样负样本所导致的性能下降问题,该分布可能包含语义上相似(同标签)的样本。
- 开发一种对比学习目标,以在不访问真实标签的情况下减少这种采样偏差。
- 在保持与现有对比学习框架兼容的同时,提升表示质量。
- 通过一般化界为下游分类任务提供理论依据。
- 在计算机视觉、自然语言处理和强化学习等多个领域中,通过实证验证该方法的有效性。
提出的方法
- 该方法引入了一种去偏对比损失,用于纠正采样到的负样本实际与锚点同属一类的概率。
- 利用包含-排除原理,将负样本期望分解为考虑正样本与负样本分布重叠的项。
- 通过基于正负样本分布重叠估计的校正项,对标准对比损失进行调整,推导出损失函数。
- 校正因子通过正样本分布中采样负样本的概率与整体负样本分布概率的比值计算得出,该比值通过经验估计近似。
- 该方法可兼容任何对比学习框架,仅需修改损失函数即可实现。
- 为确保数值稳定性,当估计器低于阈值时,方法会切换到标准有偏损失,从而保持训练稳定性。
实验结果
研究问题
- RQ1我们能否通过纠正从完整数据分布中采样负样本所引入的偏差,来改进自监督表示学习?
- RQ2一种考虑同标签负样本可能性的去偏对比学习目标,是否能带来更好的下游性能?
- RQ3我们能否为去偏对比学习目标推导出与监督学习相关的理论一般化界?
- RQ4在视觉、语言和强化学习等多样化领域中,该方法与当前最先进对比学习方法相比表现如何?
- RQ5在实际应用中,该去偏目标是否具有鲁棒性和稳定性,尤其是在校正项出现数值不稳定性时?
主要发现
- 去偏对比损失在视觉、语言和强化学习基准上始终优于标准对比学习,即使在无标签条件下也表现更优。
- 在CIFAR-10上,使用真正不同标签的负样本(无偏采样)相比标准采样方式显著提升了准确率,验证了采样偏差的存在。
- 该方法在ImageNet-100、STL-10和BookCorpus上均达到最先进性能,线性探测准确率有所提升。
- 理论分析表明,优化去偏对比损失可最小化监督分类损失的上界,从而提供一般化保证。
- 实证消融分析表明,即使在不知道标签的情况下,校正项也能有效降低同标签负样本的影响。
- 当估计器过小时,方法会切换到标准损失,从而保持训练稳定性并确保收敛。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。