QUICK REVIEW

[论文解读] End-to-end Learning of Action Detection from Frame Glimpses in Videos

Serena Yeung, Olga Russakovsky|arXiv (Cornell University)|Nov 22, 2015

Human Pose and Action Recognition参考文献 45被引用 38

一句话总结

该论文提出了一种端到端的循环强化学习智能体，通过选择性地瞥见视频帧来学习检测视频中的时序动作边界，并使用REINFORCE方法训练策略以确定何时何地查看。该方法在THUMOS'14和ActivityNet数据集上实现了最先进（SOTA）的动作检测性能，同时仅观察2%或更少的帧，展示了无需滑动窗口后处理的高效、直接的动作边界推理能力。

ABSTRACT

In this work we introduce a fully end-to-end approach for action detection in videos that learns to directly predict the temporal bounds of actions. Our intuition is that the process of detecting actions is naturally one of observation and refinement: observing moments in video, and refining hypotheses about when an action is occurring. Based on this insight, we formulate our model as a recurrent neural network-based agent that interacts with a video over time. The agent observes video frames and decides both where to look next and when to emit a prediction. Since backpropagation is not adequate in this non-differentiable setting, we use REINFORCE to learn the agent's decision policy. Our model achieves state-of-the-art results on the THUMOS'14 and ActivityNet datasets while observing only a fraction (2% or less) of the video frames.

研究动机与目标

解决传统动作检测方法效率低下且建模间接的问题，这些方法依赖于全面的滑动窗口推理和后处理。
实现无需帧级分类或非极大值抑制的直接、端到端动作边界学习。
将动作检测建模为观察与优化的序列过程，模仿人类感知。
通过学习高效的帧瞥见策略，仅观察少量帧，从而降低计算成本。

提出的方法

该模型被表述为基于循环神经网络的智能体，随时间与视频交互，决定下一步观察哪一帧以及何时发出预测。
它使用视觉编码器（VGGNet）从瞥见的帧中提取特征，并使用循环策略网络基于隐藏状态做出决策。
由于决策过程不可微，反向传播不适用，因此使用REINFORCE（一种策略梯度方法）训练智能体的决策策略。
设计了形状奖励函数以鼓励精确的定位：对靠近真实框的预测给予密集奖励，IoU越高奖励越大。
该模型学习联合策略以选择帧并发出预测，使其能够跳过无关帧，并通过重新访问早期帧来优化假设。
该框架通过支持每段视频的可变长度、结构化检测输出（包括多个预测和动态停止机制），实现灵活的输出形式。

实验结果

研究问题

RQ1一个端到端智能体能否通过选择性地观察帧，在不依赖滑动窗口推理的情况下学习检测未修剪视频中的动作边界？
RQ2基于REINFORCE的策略网络在学习动作检测的最优帧瞥见与预测策略方面效果如何？
RQ3该模型是否能在仅观察极少数视频帧的情况下实现最先进性能？
RQ4该模型在复杂视频中如何处理模糊或重叠的动作实例？
RQ5与单次遍历方法相比，该模型能够重新访问帧的能力在多大程度上提升了定位精度？

主要发现

该模型在THUMOS'14数据集上实现了36.7的mAP，优于使用密集轨迹和CNN特征的先前方法。
在ActivityNet的'Playing sports'子集上，mAP从33.2提升至36.7，21个类别中有13个类别取得显著提升。
在'Work, main job'子集上，mAP从31.1提升至39.9，表明其在判别性较弱、细微动作上的强表现。
该模型平均仅观察2%或更少的帧，展示了极高的计算效率。
可视化结果表明，智能体学会了重新访问帧（例如，针对运动模糊或模糊动作），从而提升预测准确率。
即使帧级特征微弱或弥散，该模型仍能成功检测到两个紧密相邻的动作实例（例如，跳水）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。