Skip to main content
QUICK REVIEW

[论文解读] TRECVID 2019: An Evaluation Campaign to Benchmark Video Activity Detection, Video Captioning and Matching, and Video Search & Retrieval

George Awad, Butt, Asad A.|arXiv (Cornell University)|Nov 12, 2019
Multimodal Machine Learning Applications被引用 7
一句话总结

本文介绍了 TRECVID 2019 评估活动,该活动使用包括 Vimeo 的 V3C、BBC EastEnders 和 VIRAT 在内的多样化数据集,对视频活动检测、视频字幕生成和视频搜索/检索进行了基准测试。所有任务的性能均有提升,特别是在视频与文本匹配任务中,平均倒序排名得分达到 0.727,较 2018 年的 0.516 显著提高,表明尽管数据集存在差异,视频字幕和检索系统仍取得了进展。

ABSTRACT

International audience

研究动机与目标

  • 评估并基准化基于内容的视频检索与分析系统。
  • 通过标准化数据集和度量标准,推动视频字幕、活动检测和视频搜索领域的研究。
  • 通过开放、基于度量的评估,支持视频理解的进步。
  • 为全球研究团队提供一个测试和比较视频分析系统的平台。
  • 通过迭代评估和反馈,提升系统性能。

提出的方法

  • 评估四项任务:即席视频搜索(Ad-hoc Video Search)、实例搜索(Instance Search)、扩展视频中的活动(ActEV)以及视频到文本描述(VTT)。
  • 大多数任务使用来自 Vimeo 的 V3C 数据集(100 万帧,约 1000 小时),并依据知识共享许可使用。
  • 使用 BBC EastEnders(464 小时)进行实例搜索,使用 VIRAT(10 小时)进行 ActEV。
  • 即席视频搜索(AVS)和实例搜索(INS)由人工评估员评分,视频字幕描述评分由 Mechanical Turk 完成。
  • ActEV 任务使用 Kitware, Inc. 提供的参考标注进行评分。
  • 自动评估视频字幕时采用机器翻译度量标准(MT metrics)和直接评估法(Direct Assessment, DA)。

实验结果

研究问题

  • RQ1当前系统在检测长视频序列中人类活动方面的表现如何?
  • RQ2为短视频片段生成准确且描述性字幕的最先进水平是什么?
  • RQ3系统基于文本查询检索特定视频内容的效率如何?
  • RQ4系统性能的改进在多大程度上能跨不同视频数据集和任务之间迁移?
  • RQ5不同的训练策略在视频字幕和检索任务中的性能影响如何?

主要发现

  • 视频与文本匹配及排序子任务的平均倒序排名得分从 2018 年的 0.516 提升至 2019 年的 0.727,表明检索性能有所提高。
  • RUC_AIM3 在视频与文本匹配及排序子任务中表现优于所有其他系统。
  • 视频字幕生成系统性能有所提升,描述与视频内容的对齐更加准确。
  • 使用多样化数据集(Vimeo V3C、Flickr 和 Vine)使字幕生成系统的评估范围更广。
  • 尽管数据集存在差异,性能提升表明是系统本身的改进,而非仅针对特定数据集的优化。
  • 大多数系统在具有清晰、独特动作和物体的视频上表现良好,但在模糊或常见视觉内容的视频上表现较差。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。