[论文解读] Learning a Text-Video Embedding from Incomplete and Heterogeneous Data
提出 Mixture-of-Embedding-Experts (MEE),从异构且部分可用的数据中学习文本-视频嵌入,使模型能够从缺失模态的图片和视频中进行训练,并在多个基准上提升检索性能。
Joint understanding of video and language is an active research area with many applications. Prior work in this domain typically relies on learning text-video embeddings. One difficulty with this approach, however, is the lack of large-scale annotated video-caption datasets for training. To address this issue, we aim at learning text-video embeddings from heterogeneous data sources. To this end, we propose a Mixture-of-Embedding-Experts (MEE) model with ability to handle missing input modalities during training. As a result, our framework can learn improved text-video embeddings simultaneously from image and video datasets. We also show the generalization of MEE to other input modalities such as face descriptors. We evaluate our method on the task of video retrieval and report results for the MPII Movie Description and MSR-VTT datasets. The proposed MEE model demonstrates significant improvements and outperforms previously reported methods on both text-to-video and video-to-text retrieval tasks. Code is available at: https://github.com/antoine77340/Mixture-of-Embedding-Experts
研究动机与目标
- 在大规模标注视频-字幕数据稀缺时,激发学习文本-视频嵌入的动机。
- 使模型能够从异构来源(图像、视频、面部、音频)进行训练,即使部分模态缺失。
- 提出一个端到端的 MEE 模型,对每种模态的专家进行加权,权重条件于输入文本。
- 通过整合图像-字幕数据和面部描述符来演示数据增强,以提升检索性能。
- 在文本到视频和视频到文本检索基准上展示最新的结果。
提出的方法
- 提出 Mixture-of-Embedding-Experts (MEE),为每种描述符类型(外观、运动、音频、人脸)学习独立的嵌入(专家)。
- 用时间模块(NetVLAD 或最大池化)聚合每个描述符流,并通过含有投影、上下文门控和 L2 归一化的门控嵌入模块进行嵌入。
- 使用 NetVLAD 对词嵌入进行聚合来计算文本嵌入,并聚合每个专家的文本表示。
- 用文本条件权重 w_i(X) = exp(h(X)^T a_i) / sum_j exp(h(X)^T a_j) 对专家嵌入进行加权,形成最终相似度 s(X,Y)。
- 在训练或推断时某些流缺失时,通过重新归一化可用专家权重来处理缺失模态。
- 使用双向最大间隔排序损失进行训练,以优化文本到视频和视频到文本的检索任务。
实验结果
研究问题
- RQ1能否从异构且部分可用的数据源(图像、视频、面孔、音频)学习到一个联合的文本-视频嵌入?
- RQ2当某些模态缺失时,模态特定的专家和文本条件加权是否能改善检索?
- RQ3用 COCO 的图像字幕数据进行数据增强并包含面部描述符是否能改进文本到视频和视频到文本检索?
- RQ4与既有方法相比,所提模型在标准基准(MPII/MSR-VTT)上的表现如何?
主要发现
- MEE 在文本到视频和视频到文本检索基准(MPII/LSMDC 与 MSR-VTT)上优于先前方法。
- 用 COCO 图像字幕数据进行训练增强,在 COCO 图像和 MPII 视频上的表现均有提升,且将 COCO 与面部描述符结合可带来进一步收益。
- 在有人存在时加入面部描述符提供额外改进,MEE 能在训练与推断阶段优雅处理缺失流。
- 在 LSMDC 测试集上,结合 COCO 与 Face 的 MEE 达到了列出方法中的最佳结果(文本到视频:R@1=10.1,R@5=25.6,R@10=34.6;视频到文本:MC=73.9)。
- 该模型支持将图像视为不含运动/声音的视频,从而实现从图像-字幕数据的无缝数据增强。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。