QUICK REVIEW

[论文解读] Learning to track for spatio-temporal action localization

Philippe Weinzaepfel, Zaïd Harchaoui|arXiv (Cornell University)|Jun 5, 2015

Human Pose and Action Recognition参考文献 39被引用 72

一句话总结

本文提出一种基于追踪的时空动作定位方法，结合帧级提议、实例级与类别级检测器，以及时空运动直方图（STMH）描述符，以提升定位精度。通过在帧间追踪高分提议，并利用滑动窗口优化时间边界，该方法在UCF-Sports、J-HMDB和UCF-101数据集上分别较之前工作提升15%、7%和12%的mAP，达到当前最优性能。

ABSTRACT

We propose an effective approach for spatio-temporal action localization in realistic videos. The approach first detects proposals at the frame-level and scores them with a combination of static and motion CNN features. It then tracks high-scoring proposals throughout the video using a tracking-by-detection approach. Our tracker relies simultaneously on instance-level and class-level detectors. The tracks are scored using a spatio-temporal motion histogram, a descriptor at the track level, in combination with the CNN features. Finally, we perform temporal localization of the action using a sliding-window approach at the track level. We present experimental results for spatio-temporal localization on the UCF-Sports, J-HMDB and UCF-101 action localization datasets, where our approach outperforms the state of the art with a margin of 15%, 7% and 12% respectively in mAP.

研究动机与目标

解决在未剪辑视频中准确定位动作在时空两个维度上的挑战。
通过利用追踪在帧间保持一致性，提升空间与时间定位的精确度。
通过在轨迹级别结合CNN特征与新型时空运动直方图（STMH）描述符，增强检测的可靠性。
在基准数据集上实现时空动作定位的最先进性能。
证明基于双检测器（实例级与类别级）的追踪-检测框架在鲁棒动作追踪中的有效性。

提出的方法

使用高召回率提议算法生成帧级动作提议，以覆盖潜在的动作区域。
利用外观与运动流（如光流）的CNN特征组合对每个提议进行评分。
采用基于追踪的检测框架，结合实例级与类别级检测器，以维持帧间轨迹的一致性。
在轨迹级别使用时空运动直方图（STMH）对轨迹进行评分，该描述符可捕捉时空上的动态运动模式，同时结合CNN特征。
在轨迹级别应用多尺度滑动窗口，以优化动作的时间边界。
最终动作预测通过选择高分轨迹获得，其中时间窗口经过优化以实现与真实标注的最大重叠。

实验结果

研究问题

RQ1通过在帧级提议间强制实现时间一致性，追踪能否提升时空动作定位的性能？
RQ2结合实例级与类别级检测器在未剪辑视频中如何增强追踪的鲁棒性？
RQ3与仅使用CNN特征相比，所提出的时空运动直方图（STMH）描述符在多大程度上提升了定位精度？
RQ4在轨迹级别应用的滑动窗口方法是否能有效优化时长可变动作的时间边界？
RQ5所提出的方法能否在UCF-Sports、J-HMDB和UCF-101等标准基准上实现最先进性能？

主要发现

在UCF-Sports数据集上，该方法达到90.5%的mAP，较之前最先进方法提升15%。
在J-HMDB数据集上，该方法在IoU阈值δ=0.3下达到63.5%的mAP，较之前工作提升7%。
在UCF-101数据集上，该方法在δ=0.05下达到54.28%的mAP，在δ=0.2下达到46.77%，较[46]在δ=0.2下提升12%。
移除STMH描述符后，mAP下降2%，证实其对提升定位精度具有显著贡献。
对于时长较短的“Basketball”动作，该方法在δ=0.2下达到28.6%的mAP，若无时间定位则降至9.63%，证明滑动窗口步骤具有重要价值。
mAP在不同IoU阈值下保持高度稳定，表明由于追踪优化，空间定位具有高精度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。