QUICK REVIEW

[论文解读] Human Action Localization with Sparse Spatial Supervision

Philippe Weinzaepfel, Xavier Martín|arXiv (Cornell University)|May 17, 2016

Human Pose and Action Recognition参考文献 33被引用 68

一句话总结

本文提出了一种时空动作检测方法，仅使用稀疏的空间标注（即每个动作实例在少数帧上标注边界框）即可实现精确的人体动作定位，而非依赖密集的帧级标注。该方法利用人体轨迹追踪器与具备时间建模能力的双流网络，在未修剪的视频中实现动作定位，在新提出的DALY数据集上达到最先进性能，该数据集包含3,724个在时间与空间上均被标注的动作实例。

ABSTRACT

We introduce an approach for spatio-temporal human action localization using sparse spatial supervision. Our method leverages the large amount of annotated humans available today and extracts human tubes by combining a state-of-the-art human detector with a tracking-by-detection approach. Given these high-quality human tubes and temporal supervision, we select positive and negative tubes with very sparse spatial supervision, i.e., only one spatially annotated frame per instance. The selected tubes allow us to effectively learn a spatio-temporal action detector based on dense trajectories or CNNs. We conduct experiments on existing action localization benchmarks: UCF-Sports, J-HMDB and UCF-101. Our results show that our approach, despite using sparse spatial supervision, performs on par with methods using full supervision, i.e., one bounding box annotation per frame. To further validate our method, we introduce DALY (Daily Action Localization in YouTube), a dataset for realistic action localization in space and time. It contains high quality temporal and spatial annotations for 3.6k instances of 10 actions in 31 hours of videos (3.3M frames). It is an order of magnitude larger than existing datasets, with more diversity in appearance and long untrimmed videos.

研究动机与目标

开发一种减少对昂贵密集空间标注依赖的人体动作定位方法。
在仅对每个动作实例标注少数帧的稀疏空间监督下，评估动作定位性能。
引入并发布DALY数据集，该数据集为大规模基准，包含10个动作类别、330万帧以及3,724个在时间与空间上均被标注的动作实例。
通过稳健的人体轨迹追踪与检测流程，证明稀疏监督足以实现有效的时空动作检测。

提出的方法

该方法采用双流卷积神经网络，分别处理外观特征与运动特征，端到端地在带有稀疏空间标注的视频上进行训练。
采用人体轨迹追踪器将帧间的人体检测结果关联，生成跨越时间的时空轨迹（tube），实现跨帧的检测关联。
在每个动作实例中，于5个均匀采样的帧上收集空间标注，包括演员、物体的边界框以及上半身关键点。
通过在轨迹特征上使用时间回归头，回归动作轨迹的起始与结束时间，实现时间定位。
模型通过联合分类、回归与姿态估计的多任务损失进行训练，以提升定位精度。
引入镜头切换标志（shot-cut flag）以处理视频剪辑，必要时将剪辑视为独立的动作实例。

实验结果

研究问题

RQ1仅使用稀疏空间标注（如每个动作实例仅在少数帧上标注边界框）是否能够实现精确的人体动作定位？
RQ2当仅使用每个动作实例的5帧作为空间监督时，动作定位性能会如何退化？
RQ3在稀疏监督下，基于轨迹的追踪方法在多大程度上能提升时间一致性和定位精度？
RQ4在包含多样化动作类别与复杂时间边界的新型挑战性数据集上，所提方法与完全监督基线相比表现如何？

主要发现

所提方法仅使用稀疏空间监督即在DALY数据集上达到最先进性能，证明密集标注并非实现高精度定位的必要条件。
平均动作实例时长为7.8秒，标准差为16.4秒，表明动作长度存在显著差异，而该方法成功处理了此类差异。
该方法在95%的动作实例上实现了时间交并比（IoU）高于0.2，表明在稀疏监督下仍具备强大的时间定位能力。
失败案例主要源于部分身体遮挡或相机遮挡，导致人体检测器无法维持跟踪，凸显在严重视觉退化情况下的鲁棒性局限。
数据集包含每类51段视频，共3,724个动作实例，包含70万帧包含动作的视频帧，为未来研究提供了丰富且多样的基准。
该方法能成功定位诸如打电话、喝水和拍照等动作，即使在动作短暂或多人复杂场景中亦表现良好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。