[论文解读] Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition
本文提出光学流引导特征(OFF),一种用于视频动作识别的快速且鲁棒的运动表征方法,通过从深度特征图计算时空梯度,实现仅使用RGB输入的端到端学习。该方法在UCF-101上达到93.3%的准确率,与双流网络性能相当,同时推理速度超过200 FPS;当与光流结合时,其在UCF-101上的性能达到SOTA的96.0%,在HMDB-51上达到74.2%。
Motion representation plays a vital role in human action recognition in videos. In this study, we introduce a novel compact motion representation for video action recognition, named Optical Flow guided Feature (OFF), which enables the network to distill temporal information through a fast and robust approach. The OFF is derived from the definition of optical flow and is orthogonal to the optical flow. The derivation also provides theoretical support for using the difference between two frames. By directly calculating pixel-wise spatiotemporal gradients of the deep feature maps, the OFF could be embedded in any existing CNN based video action recognition framework with only a slight additional cost. It enables the CNN to extract spatiotemporal information, especially the temporal information between frames simultaneously. This simple but powerful idea is validated by experimental results. The network with OFF fed only by RGB inputs achieves a competitive accuracy of 93.3% on UCF-101, which is comparable with the result obtained by two streams (RGB and optical flow), but is 15 times faster in speed. Experimental results also show that OFF is complementary to other motion modalities such as optical flow. When the proposed method is plugged into the state-of-the-art video action recognition framework, it has 96:0% and 74:2% accuracy on UCF-101 and HMDB-51 respectively. The code for this project is available at https://github.com/kevin-ssy/Optical-Flow-Guided-Feature.
研究动机与目标
- 为解决视频动作识别中密集光流提取的低效与高计算成本问题。
- 开发一种紧凑且可微分的运动表征,捕捉时间动态,而无需依赖预计算的光流。
- 实现在仅使用RGB输入的情况下,对CNN进行端到端训练,同时达到与双流网络相当的性能。
- 探究基于特征的运动表征是否能优于或补充传统光流在动作识别中的表现。
- 验证OFF在与光流等其他运动模态结合时的有效性与互补性。
提出的方法
- OFF从特征层面的光流正交空间导出,利用深度卷积神经网络特征图的逐像素时空梯度。
- 该方法计算连续特征图之间的水平与垂直空间梯度及时间差分,形成具有运动感知能力的表征。
- OFF中的所有操作均可微分,因此可无缝集成到任何基于CNN的视频动作识别框架中,实现端到端训练。
- 特征图之间的时间差分通过突出显示物体或身体部位出现或消失的区域,捕捉运动动态。
- OFF直接在特征图上计算,避免了对独立光流估计的需求,从而显著降低推理时间。
- 该方法具有模块化特性,可轻松嵌入现有架构(如双流网络或TSN),在计算开销极小的情况下提升性能。
实验结果
研究问题
- RQ1能否从深度特征梯度中导出一种运动表征,其性能与光流相当,但计算速度显著更快?
- RQ2深度特征之间的时间差分是否能捕捉到对动作识别具有判别性的有意义运动动态?
- RQ3OFF能否作为仅使用RGB输入的独立运动表征,实现与双流网络相当的准确率?
- RQ4OFF是否与其它运动模态(如光流)具有互补性,且在融合后能提升性能?
- RQ5OFF表征能否在单一CNN中实现端到端训练,从而消除对预计算运动特征的需求?
主要发现
- 基于OFF的网络仅使用RGB输入即在UCF-101上达到93.3%的准确率,性能与双流网络相当,但推理速度快15倍。
- 该网络在仅使用RGB输入的情况下,推理速度超过200帧每秒,展现出极高的推理效率。
- 在双流设置中与光流结合后,该方法在UCF-101上达到96.0%的准确率,在HMDB-51上达到74.2%,分别比基线双流TSN模型高出2.0%和5.7%。
- 消融实验表明,性能提升主要源于OFF计算本身,而非网络架构设计,因为不使用OFF的超列基线模型性能显著偏低。
- 在集成模型中加入OFF(RGB Diff)可使准确率进一步提升0.3%,证明其作为额外模态的有效性。
- OFF表征与其他运动描述符具有互补性,可在不增加额外预处理或运动特征存储需求的情况下,增强SOTA模型的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。