[论文解读] Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations
论文提出 EMCL,一种基于期望最大化的对比学习框架,学习紧凑且语义对齐的视频-文本表示,在 MSR-VTT、ActivityNet 和 LSMDC 上达到最先进的结果,并且可以在训练或推理阶段接入现有方法。
Most video-and-language representation learning approaches employ contrastive learning, e.g., CLIP, to project the video and text features into a common latent space according to the semantic similarities of text-video pairs. However, such learned shared latent spaces are not often optimal, and the modality gap between visual and textual representation can not be fully eliminated. In this paper, we propose Expectation-Maximization Contrastive Learning (EMCL) to learn compact video-and-language representations. Specifically, we use the Expectation-Maximization algorithm to find a compact set of bases for the latent space, where the features could be concisely represented as the linear combinations of these bases. Such feature decomposition of video-and-language representations reduces the rank of the latent space, resulting in increased representing power for the semantics. Extensive experiments on three benchmark text-video retrieval datasets prove that our EMCL can learn more discriminative video-and-language representations than previous methods, and significantly outperform previous state-of-the-art methods across all metrics. More encouragingly, the proposed method can be applied to boost the performance of existing approaches either as a jointly training layer or an out-of-the-box inference module with no extra training, making it easy to be incorporated into any existing methods.
研究动机与目标
- 识别标准对比学习在文本-视频检索中由于模态差距和冗余语义维度带来的局限。
- 提出 EMCL,学习视频与文本表示的低秩且语义相关的子空间。
- 开发 EMCL-Net,包含一种参数初始化策略以稳健化 EM 迭代并实现联合或即插即用使用。
- 在 MSR-VTT、ActivityNet 和 LSMDC 上展示最先进的检索性能,并展示作为现有基线的附加组件的兼容性。
提出的方法
- 将跨模态对比学习公式化为一个期望最大化(EM)过程,以寻找共同表示视频和文本特征的 K 个潜在子空间。
- 在有限 EM 设置中对特征分量到子空间的软分配使用高斯核(E 步)并更新子空间基(M 步)。
- 通过重建在 K 个低维子空间中的特征,表示特征,降低类内方差、提高跨模态的类间方差。
- 引入最大概率投影和特征重构步骤,以获得视频和文本共享的紧凑子空间表示。
- 将 EMCL 融入 EMCL-Net,包含一个用于将跨批信息传递的初始值保持(M)以及带缩放参数 beta 的重构融合。
- 用 InfoNCE 损失对重构后的视频-文本嵌入的余弦相似度进行训练。
实验结果
研究问题
- RQ1低秩、共享子空间分解是否比标准对比学习更有效地弥合视觉与文本模态之间的差距?
- RQ2将基于EM的子空间投影整合,是否能在同类跨模态对之间提升语义聚类,同时将不同类别分开?
- RQ3EMCL 是否可以作为插件或仅推理模块广泛兼容,以提升现有文本-视频检索模型?
- RQ4初始化策略、子空间数量 K 及 EM 迭代对性能与稳定性有何影响?
主要发现
| 方法 | 预训练 | MSR-VTT R@1 | MSR-VTT R@5 | MSR-VTT R@10 | MSR-VTT MdR | ActivityNet R@1 | ActivityNet R@5 | ActivityNet R@50 | ActivityNet MdR | LSMDC R@1 | LSMDC R@5 | LSMDC R@10 | LSMDC MdR |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| JSFusion | - | 10.2 | 31.2 | 43.2 | 13.0 | - | - | - | - | 9.1 | 21.2 | 34.1 | 36.0 |
| CE (Liu et al., 2019) | GPT-1 | 20.9 | 48.8 | 62.4 | 6.0 | 18.2 | 47.7 | 91.4 | 6.0 | 11.2 | 26.9 | 34.8 | 25.3 |
| MMT (Gabeur et al., 2020) | BERT-Base | 24.6 | 54.0 | 67.1 | 4.0 | 22.7 | 54.2 | 93.2 | 5.0 | 13.2 | 29.2 | 38.8 | 21.0 |
| CLIP4Clip (Luo et al., 2021) | CLIP (ViT-B/32) | 44.5 | 71.4 | 81.6 | 2.0 | 40.5 | 72.4 | 98.1 | 2.0 | 22.6 | 41.0 | 49.1 | 11.0 |
| EMCL-Net (Ours) | CLIP (ViT-B/32) | 46.8 | 73.1 | 83.1 | 2.0 | 41.2 | 72.7 | 98.1 | 2.0 | 23.9 | 42.4 | 50.9 | 10.0 |
| EMCL-Net (Ours) †† | CLIP (ViT-B/32) | 51.6 | 78.1 | 85.3 | 1.0 | 50.6 | 78.7 | 98.1 | 1.0 | 25.9 | 46.4 | 53.7 | 8.0 |
- 与标准对比基线相比,EMCL 能产生更具辨别力的视频-语言表示,类内更紧凑、类间分离更大。
- 在适当的参数初始化下,EMCL-Net 在 MSR-VTT、ActivityNet 和 LSMDC 上的文本到视频和视频到文本检索任务上对基线模型有稳定提升。
- 在消融实验中,EMCL 在使用相似复杂度的情况下优于 PCA、Transformers、全连接层和稀疏自编码器,凸显语义对齐子空间表示的优势。
- 将 EMCL 整合到强基线(MMT、CLIP4Clip、DCR)后带来显著提升,包括文本到视频的 R@1 最高提升可达 3.5% 的绝对值,以及视频到文本检索的显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。