QUICK REVIEW
[论文解读] TRECVID 2019: An Evaluation Campaign to Benchmark Video Activity Detection, Video Captioning and Matching, and Video Search & Retrieval
George Awad, Butt, Asad A.|arXiv (Cornell University)|Nov 12, 2019
Multimodal Machine Learning Applications被引用 7
一句话总结
本文介绍了 TRECVID 2019 评估活动,该活动使用包括 Vimeo 的 V3C、BBC EastEnders 和 VIRAT 在内的多样化数据集,对视频活动检测、视频字幕生成和视频搜索/检索进行了基准测试。所有任务的性能均有提升,特别是在视频与文本匹配任务中,平均倒序排名得分达到 0.727,较 2018 年的 0.516 显著提高,表明尽管数据集存在差异,视频字幕和检索系统仍取得了进展。
ABSTRACT
International audience
研究动机与目标
- 评估并基准化基于内容的视频检索与分析系统。
- 通过标准化数据集和度量标准,推动视频字幕、活动检测和视频搜索领域的研究。
- 通过开放、基于度量的评估,支持视频理解的进步。
- 为全球研究团队提供一个测试和比较视频分析系统的平台。
- 通过迭代评估和反馈,提升系统性能。
提出的方法
- 评估四项任务:即席视频搜索(Ad-hoc Video Search)、实例搜索(Instance Search)、扩展视频中的活动(ActEV)以及视频到文本描述(VTT)。
- 大多数任务使用来自 Vimeo 的 V3C 数据集(100 万帧,约 1000 小时),并依据知识共享许可使用。
- 使用 BBC EastEnders(464 小时)进行实例搜索,使用 VIRAT(10 小时)进行 ActEV。
- 即席视频搜索(AVS)和实例搜索(INS)由人工评估员评分,视频字幕描述评分由 Mechanical Turk 完成。
- ActEV 任务使用 Kitware, Inc. 提供的参考标注进行评分。
- 自动评估视频字幕时采用机器翻译度量标准(MT metrics)和直接评估法(Direct Assessment, DA)。
实验结果
研究问题
- RQ1当前系统在检测长视频序列中人类活动方面的表现如何?
- RQ2为短视频片段生成准确且描述性字幕的最先进水平是什么?
- RQ3系统基于文本查询检索特定视频内容的效率如何?
- RQ4系统性能的改进在多大程度上能跨不同视频数据集和任务之间迁移?
- RQ5不同的训练策略在视频字幕和检索任务中的性能影响如何?
主要发现
- 视频与文本匹配及排序子任务的平均倒序排名得分从 2018 年的 0.516 提升至 2019 年的 0.727,表明检索性能有所提高。
- RUC_AIM3 在视频与文本匹配及排序子任务中表现优于所有其他系统。
- 视频字幕生成系统性能有所提升,描述与视频内容的对齐更加准确。
- 使用多样化数据集(Vimeo V3C、Flickr 和 Vine)使字幕生成系统的评估范围更广。
- 尽管数据集存在差异,性能提升表明是系统本身的改进,而非仅针对特定数据集的优化。
- 大多数系统在具有清晰、独特动作和物体的视频上表现良好,但在模糊或常见视觉内容的视频上表现较差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。