QUICK REVIEW

[论文解读] TRECVID 2019: An Evaluation Campaign to Benchmark Video Activity Detection, Video Captioning and Matching, and Video Search & Retrieval

George Awad, Butt, Asad A.|arXiv (Cornell University)|Nov 12, 2019

Multimodal Machine Learning Applications被引用 7

一句话总结

本文介绍了 TRECVID 2019 评估活动，该活动使用包括 Vimeo 的 V3C、BBC EastEnders 和 VIRAT 在内的多样化数据集，对视频活动检测、视频字幕生成和视频搜索/检索进行了基准测试。所有任务的性能均有提升，特别是在视频与文本匹配任务中，平均倒序排名得分达到 0.727，较 2018 年的 0.516 显著提高，表明尽管数据集存在差异，视频字幕和检索系统仍取得了进展。

ABSTRACT

International audience

研究动机与目标

评估并基准化基于内容的视频检索与分析系统。
通过标准化数据集和度量标准，推动视频字幕、活动检测和视频搜索领域的研究。
通过开放、基于度量的评估，支持视频理解的进步。
为全球研究团队提供一个测试和比较视频分析系统的平台。
通过迭代评估和反馈，提升系统性能。

提出的方法

评估四项任务：即席视频搜索（Ad-hoc Video Search）、实例搜索（Instance Search）、扩展视频中的活动（ActEV）以及视频到文本描述（VTT）。
大多数任务使用来自 Vimeo 的 V3C 数据集（100 万帧，约 1000 小时），并依据知识共享许可使用。
使用 BBC EastEnders（464 小时）进行实例搜索，使用 VIRAT（10 小时）进行 ActEV。
即席视频搜索（AVS）和实例搜索（INS）由人工评估员评分，视频字幕描述评分由 Mechanical Turk 完成。
ActEV 任务使用 Kitware, Inc. 提供的参考标注进行评分。
自动评估视频字幕时采用机器翻译度量标准（MT metrics）和直接评估法（Direct Assessment, DA）。

实验结果

研究问题

RQ1当前系统在检测长视频序列中人类活动方面的表现如何？
RQ2为短视频片段生成准确且描述性字幕的最先进水平是什么？
RQ3系统基于文本查询检索特定视频内容的效率如何？
RQ4系统性能的改进在多大程度上能跨不同视频数据集和任务之间迁移？
RQ5不同的训练策略在视频字幕和检索任务中的性能影响如何？

主要发现

视频与文本匹配及排序子任务的平均倒序排名得分从 2018 年的 0.516 提升至 2019 年的 0.727，表明检索性能有所提高。
RUC_AIM3 在视频与文本匹配及排序子任务中表现优于所有其他系统。
视频字幕生成系统性能有所提升，描述与视频内容的对齐更加准确。
使用多样化数据集（Vimeo V3C、Flickr 和 Vine）使字幕生成系统的评估范围更广。
尽管数据集存在差异，性能提升表明是系统本身的改进，而非仅针对特定数据集的优化。
大多数系统在具有清晰、独特动作和物体的视频上表现良好，但在模糊或常见视觉内容的视频上表现较差。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。