[论文解读] VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation
VALUE基准在检索、问答和字幕生成等方面覆盖11个VidL数据集,采用多通道输入(视频帧和字幕),分析融合方法与多任务学习,并对可迁移性进行基准评测。
Most existing video-and-language (VidL) research focuses on a single dataset, or multiple datasets of a single task. In reality, a truly useful VidL system is expected to be easily generalizable to diverse tasks, domains, and datasets. To facilitate the evaluation of such systems, we introduce Video-And-Language Understanding Evaluation (VALUE) benchmark, an assemblage of 11 VidL datasets over 3 popular tasks: (i) text-to-video retrieval; (ii) video question answering; and (iii) video captioning. VALUE benchmark aims to cover a broad range of video genres, video lengths, data volumes, and task difficulty levels. Rather than focusing on single-channel videos with visual information only, VALUE promotes models that leverage information from both video frames and their associated subtitles, as well as models that share knowledge across multiple tasks. We evaluate various baseline methods with and without large-scale VidL pre-training, and systematically investigate the impact of video input channels, fusion methods, and different video representations. We also study the transferability between tasks, and conduct multi-task learning under different settings. The significant gap between our best model and human performance calls for future study for advanced VidL models. VALUE is available at https://value-benchmark.github.io/.
研究动机与目标
- 为跨越多样数据集和任务的VidL理解提供一个统一的、多任务评估平台。
- 提倡利用多通道输入(视频帧和字幕)并在任务之间共享知识的模型。
- 评估VidL任务之间的可迁移性及多任务训练的好处。
提出的方法
- 汇聚11个覆盖检索、问答和字幕生成的VidL数据集。
- 采用多通道输入设置(视频帧 + 字幕)并使用带任务特定头的基线HERO架构。
- 评估将视频与字幕信息融合的多种策略。
- 尝试不同的视觉表示(2D/3D特征、基于CLIP的选项)和预训练。
- 研究跨任务的可迁移性与多任务学习(按任务、按领域、全任务),然后在单个任务上进行微调。
- 提供预提取特征、起始代码,以及在VALUE服务器上的排行榜。
实验结果
研究问题
- RQ1在VALUE任务中,视频通道与字幕通道对性能的贡献有多大?
- RQ2哪种视频-字幕融合策略在所有任务中实现最佳泛化?
- RQ3不同视觉表示对VidL任务性能的影响是什么?
- RQ4在VALUE中,任务与领域之间的表示可迁移性有多大?
- RQ5相比单任务模型,多任务学习是否能提高多项VidL任务的性能?
主要发现
- 结合视频与字幕通道在VALUE任务中获得最佳总体元均值分数(52.52)。
- 字幕输入对YC2R及部分QA任务特别有帮助,而VATEX任务更依赖视频信息。
- 两流融合不及整合融合方法;HERO融合在广泛泛化方面表现最佳。
- 不同VidL任务之间的任务迁移性有限,凸显出领域和任务之间的差距。
- 所有任务的多任务训练(AT)使元均值提升到52.33,并且通常优于单任务模型,且参数效率显著;从多任务模型微调(AT → ST)进一步带来收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。