[论文解读] Use What You Have: Video Retrieval Using Representations From Collaborative Experts
本文提出一个 Collaborative Experts (CE) 框架,将多个预训练的单模态视频专家(如对象、动作、语音、OCR)聚合为一个紧凑的、用于检索的视频-文本嵌入,并采用动态协作门控机制。它在五个基准数据集上进行评估,显示通过利用通用线索和特定线索来提升检索性能。
The rapid growth of video on the internet has made searching for video content using natural language queries a significant challenge. Human-generated queries for video datasets `in the wild' vary a lot in terms of degree of specificity, with some queries describing specific details such as the names of famous identities, content from speech, or text available on the screen. Our goal is to condense the multi-modal, extremely high dimensional information from videos into a single, compact video representation for the task of video retrieval using free-form text queries, where the degree of specificity is open-ended. For this we exploit existing knowledge in the form of pre-trained semantic embeddings which include 'general' features such as motion, appearance, and scene features from visual content. We also explore the use of more 'specific' cues from ASR and OCR which are intermittently available for videos and find that these signals remain challenging to use effectively for retrieval. We propose a collaborative experts model to aggregate information from these different pre-trained experts and assess our approach empirically on five retrieval benchmarks: MSR-VTT, LSMDC, MSVD, DiDeMo, and ActivityNet. Code and data can be found at www.robots.ox.ac.uk/~vgg/research/collaborative-experts/. This paper contains a correction to results reported in the previous version.
研究动机与目标
- 通过利用预训练的单模态专家(如对象、动作、语音、OCR)来降低视频-文本检索的标注成本。
- 开发一个鲁棒的、固定长度的视频表示,可以用自由文本查询进行检索。
- 证明协同门控能够有效整合多样且部分可用的线索。
- 在多个数据集上评估该方法,以确立其泛化性及相对于先前方法的相对提升。
提出的方法
- 通过将多个预训练的单模态专家整合为任务特定嵌入来构建联合的视频-文本嵌入。
- 应用一个协同门控模块,计算成对的专家关系以产生注意权重向量并调制专家表示。
- 将专家嵌入投射到共同维度,并使用 Gated Embedding Module (GEM) 获得归一化嵌入。
- 使用上下文词嵴嵌入对文本查询进行编码,并用 NetVLAD 聚合,然后投射到每个专家的子空间并形成联合文本嵌入。
- 使用双向最大边际排序损失联合训练视频和文本编码器。
- 通过零填充处理缺失的专家,并重新归一化混合权重以维持一致的相似度分数。
实验结果
研究问题
- RQ1通过聚合多样的预训练专家表示,能否有效学习视频和文本的联合嵌入?
- RQ2一般线索(运动、外观、场景)与特定线索(ASR、OCR、屏幕上的文本)对检索性能的贡献到何种程度?
- RQ3协同门控机制是否提高了跨专家信息在视频-文本检索中的整合?
- RQ4所提出的 CE 框架在标准视频检索基准上相较于前方法的表现如何?
主要发现
- Collaborative Experts 在多个基准(MSR-VTT、LSMDC、MSVD、DiDeMo、ActivityNet)上持续优于基线的检索性能。
- 强大的通用线索(外观、运动、场景”为基线提供坚实支撑,而特定线索(ASR、OCR、屏幕上的文本)有价值但在不稳定可用时较难利用。
- 协同门控机制(专家之间的成对关系)实现了更好的信息融合,并比先前方法具有更紧凑的参数化。
- 增加每个视频的训练字幕数量带来与增加更多专家相当的性能提升,同时结合多字幕和多专家可获得最强结果。
- CE 在多个基准上达到具有竞争力或最先进的结果,包括 MSR-VTT、LSMDC、MSVD、DiDeMo 和 ActivityNet,在视频到文本和文本到视频检索设置下。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。