[论文解读] Understanding Contrastive Learning via Distributionally Robust Optimization
本文通过分布鲁棒优化 (DRO) 分析对比学习,展示 CL 在负采样分布上表现得像 DRO,并引入 ADNCE 以在图像、句子和图谱领域降低保守性与对离群值的敏感性。
This study reveals the inherent tolerance of contrastive learning (CL) towards sampling bias, wherein negative samples may encompass similar semantics (\eg labels). However, existing theories fall short in providing explanations for this phenomenon. We bridge this research gap by analyzing CL through the lens of distributionally robust optimization (DRO), yielding several key insights: (1) CL essentially conducts DRO over the negative sampling distribution, thus enabling robust performance across a variety of potential distributions and demonstrating robustness to sampling bias; (2) The design of the temperature $τ$ is not merely heuristic but acts as a Lagrange Coefficient, regulating the size of the potential distribution set; (3) A theoretical connection is established between DRO and mutual information, thus presenting fresh evidence for ``InfoNCE as an estimate of MI'' and a new estimation approach for $ϕ$-divergence-based generalized mutual information. We also identify CL's potential shortcomings, including over-conservatism and sensitivity to outliers, and introduce a novel Adjusted InfoNCE loss (ADNCE) to mitigate these issues. It refines potential distribution, improving performance and accelerating convergence. Extensive experiments on various domains (image, sentence, and graphs) validate the effectiveness of the proposal. The code is available at \url{https://github.com/junkangwu/ADNCE}.
研究动机与目标
- 说明为何 CL 对采样偏差具有鲁棒性以及温度参数 τ 的作用何在。
- 证明 CL 在 φ-散度(KL 及其扩展)的约束下对负采样分布实现 DRO。
- 建立 DRO、互信息与 InfoNCE 作为 MI 估计之间的理论联系。
- 识别 CL 在 DRO 下的局限性(过度保守、离群值问题),并提出纠正方法。
提出的方法
- 将 CL-DRO 表述为对负样本的 φ-散度约束下的 DRO 目标函数。
- 将基于 KL 的 CL-DRO 目标与 InfoNCE 损失联系起来,并识别 τ 作为充当拉格朗日乘子的一种温度。
- 推导 CL-DRO 的均值-方差解释,显示方差控制是 DRO 的副产物。
- 推广到 ϕ-散度,以将 CL-DRO 与基于 ϕ-散度的互信息(Iϕ)联系起来。
- 通过对负样本重新加权为高斯样式权重来提出 ADNCE,以减少保守性和对离群值的敏感性。
- 在图像、句子和图谱模态上提供实证验证。
实验结果
研究问题
- RQ1为什么对比学习在负样本采样偏差下仍然具有鲁棒性?
- RQ2从 DRO 角度看,温度 τ 在 CL 中的具体作用是什么?
- RQ3在 CL 的背景下,DRO 与互信息是如何联系的?
- RQ4当负分布被调整以缓解过度保守性和离群值时,CL 是否可以得到改进?
主要发现
- CL 在负采样分布上优化一个 DRO,从而提高对采样偏差的鲁棒性。
- τ 作为一个拉格朗日系数,控制潜在分布集合的规模(鲁棒半径)。
- InfoNCE 与基于 ϕ-散度的互信息的紧致变分形式相关,从而推广 MI 估计。
- 均值-方差解释显示 CL 引入对负样本的方差正则化,提升稳定性。
- ADNCE 通过用高斯样式权重重塑最坏分布,减少保守性和对离群值的敏感性,改善在各领域的收敛性和性能。
- 实证结果表明 ADNCE 在图像、句子和图谱基准上具有有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。