QUICK REVIEW

[论文解读] A Discriminative CNN Video Representation for Event Detection

Zhongwen Xu, Yi Yang|arXiv (Cornell University)|Nov 14, 2014

Human Pose and Action Recognition参考文献 36被引用 29

一句话总结

本文提出了一种用于事件检测的判别性CNN视频表征方法，通过使用潜在概念描述符和先进的编码技术替代标准池化操作，显著提升了性能。在TRECVID MEDTest 13上达到44.6% mAP，在MEDTest 14上达到36.8%，显著优于改进的Dense Trajectories和现有CNN基线方法，同时通过产品量化压缩实现了高效的推理。

ABSTRACT

In this paper, we propose a discriminative video representation for event detection over a large scale video dataset when only limited hardware resources are available. The focus of this paper is to effectively leverage deep Convolutional Neural Networks (CNNs) to advance event detection, where only frame level static descriptors can be extracted by the existing CNN toolkit. This paper makes two contributions to the inference of CNN video representation. First, while average pooling and max pooling have long been the standard approaches to aggregating frame level static features, we show that performance can be significantly improved by taking advantage of an appropriate encoding method. Second, we propose using a set of latent concept descriptors as the frame descriptor, which enriches visual information while keeping it computationally affordable. The integration of the two contributions results in a new state-of-the-art performance in event detection over the largest video datasets. Compared to improved Dense Trajectories, which has been recognized as the best video representation for event detection, our new representation improves the Mean Average Precision (mAP) from 27.6% to 36.8% for the TRECVID MEDTest 14 dataset and from 34.0% to 44.6% for the TRECVID MEDTest 13 dataset. This work is the core part of the winning solution of our CMU-Informedia team in TRECVID MED 2014 competition.

研究动机与目标

解决在大规模视频数据集（如包含20万个视频的TRECVID MEDTest 14集合）上提取改进Dense Trajectories（IDT）时的高计算成本问题。
克服标准CNN视频表征的局限性，尽管其在图像任务中具有速度和准确性的优势，但与手工设计的特征（如IDT）相比，其在事件检测任务中表现较差。
为计算资源有限的小型研究团队开发一种计算效率高且高度判别性的视频表征方法。
通过CNN特征的产品量化压缩，实现快速推理和可扩展部署，且不损失性能。

提出的方法

用学习的编码方法（特别是结合产品量化的VLAD）替代标准的平均池化或最大池化，将帧级CNN描述符聚合为判别性视频级表征。
引入潜在概念描述符作为帧级CNN特征，增强视觉语义信息，同时保持计算效率。
利用多个CNN层（如fc6、fc7和SPP）的晚期融合，结合互补表征以提升鲁棒性。
应用产品量化（PQ）压缩编码后的视频特征，将存储空间从48.8 GB减少至1 GB以下，从而在预测过程中实现快速I/O。
使用ImageNet预训练权重进行迁移学习训练CNN模型，并在事件检测数据上进行微调，采用帧级监督。
通过融合多种表征（如IDT和MFCC）来展示互补性，并进一步提升性能。

实验结果

研究问题

RQ1在仅限单机计算的条件下，基于CNN的视频表征能否在事件检测任务中超越手工设计的特征（如改进的Dense Trajectories）？
RQ2将标准池化替换为学习的编码方法（如VLAD）是否能显著提升基于CNN的视频表征的判别能力？
RQ3潜在概念描述符能否在不增加计算成本的前提下提升帧级CNN特征的质量，从而用于事件检测？
RQ4产品量化在多大程度上可以压缩视频表征，同时保持性能，以实现在大规模数据集上的快速推理？
RQ5多个CNN层及模态（如音频、运动）的晚期融合在多大程度上能提升整体事件检测的准确率？

主要发现

所提方法在TRECVID MEDTest 13上达到44.6% mAP，在MEDTest 14上达到36.8%，分别较改进的Dense Trajectories（IDT）相对提升31.2%和33.3%。
在10Ex设置下，方法在MEDTest 13上达到29.8% mAP，在MEDTest 14上达到24.5%，分别较IDT相对提升65.6%和76.3%。
使用潜在概念描述符和学习编码（VLAD）显著优于标准的CNN特征平均池化方法，后者在MEDTest 13和14上仅分别达到32.7%和24.8% mAP。
产品量化使在完整20万个视频的MEDTest 14数据集上进行预测的推理时间缩短至每事件仅4.1秒（使用20个线程），展现出极高的效率。
对多个CNN层（如fc6、fc7、SPP）和模态（如IDT和MFCC）进行晚期融合，进一步将性能提升至100Ex设置下的48.6% mAP和10Ex设置下的32.2% mAP，超越了顶级竞赛系统。
该方法在不同训练条件下均表现出鲁棒性，且具备良好的可扩展性，在与融合超过10种特征的系统对比中仍达到最先进性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。