[论文解读] Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning
本文识别并解释多模态对比表示中的模态差距,显示它源自由初始化引起的圆锥效应并被对比学习强化;操控该差距可能影响零样本性能与公平性。
We present modality gap, an intriguing geometric phenomenon of the representation space of multi-modal models. Specifically, we show that different data modalities (e.g. images and text) are embedded at arm's length in their shared representation in multi-modal models such as CLIP. Our systematic analysis demonstrates that this gap is caused by a combination of model initialization and contrastive learning optimization. In model initialization, we show empirically and theoretically that the representation of a common deep neural network is restricted to a narrow cone. As a consequence, in a multi-modal model with two encoders, the representations of the two modalities are clearly apart when the model is initialized. During optimization, contrastive learning keeps the different modalities separate by a certain distance, which is influenced by the temperature parameter in the loss function. Our experiments further demonstrate that varying the modality gap distance has a significant impact in improving the model's downstream zero-shot classification performance and fairness. Our code and data are available at https://modalitygap.readthedocs.io/
研究动机与目标
- 证明在多种模态和架构之间存在模态差距。
- 解释模态差距背后的三部分机制:由初始化引发的圆锥效应、随机圆锥的差异,以及对比学习如何维持差距。
- 展示改变差距距离如何影响下游零样本性能和跨任务公平性。
提出的方法
- 对嵌入进行实证可视化(如 UMAP),以揭示锥形的嵌入空间。
- 对不同层的圆锥行为及非线性激活对余弦相似度的影响进行理论分析。
- 分析随机初始化如何产生不同的嵌入圆锥及其对模态差距的影响。
- 对 CLIP 的损失景观进行探查,以研究温度和差距如何影响优化。
- 嵌入位移实验,用于评估缩小或扩大差距如何影响对比损失。
- 受控仿真和微调以检查温度效应和差距操控。
实验结果
研究问题
- RQ1在多模态对比模型中,是否存在跨不同模态和架构的模态差距?
- RQ2哪些机制(初始化圆锥效应、随机圆锥变体和对比损失动态)会产生并维持该差距?
- RQ3改变模态差距距离如何影响下游零样本性能与公平性指标?
主要发现
- 图像和文本的嵌入空间即使在随机初始化或随机噪声输入下也位于狭窄的圆锥中。
- 不同的随机初始化会产生不同的圆锥,解释了多编码器模型在初始化时的模态差距。
- 更深的层和非线性放大余弦相似度,增加圆锥的狭窄程度(圆锥效应)。
- 对比学习倾向于维持模态差距;温度影响损失景观中差距的排斥结构。
- 操控差距距离可以在若干任务上改善零样本分类性能和公平性,尽管效果随任务和温度而异。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。