Skip to main content
QUICK REVIEW

[论文解读] Unsupervised Learning of Long-Term Motion Dynamics for Videos

Zelun Luo, Boya Peng|arXiv (Cornell University)|Jan 7, 2017
Human Pose and Action Recognition参考文献 43被引用 32
一句话总结

本文提出了一种无监督视频表征学习框架,通过预测一系列原子3D运动场来捕捉长期时间依赖性。通过在RGB-D输入上使用基于LSTM的编码器-解码器网络,该方法学习到紧凑且具有判别性的表征,在NTU RGB+D和MSR Daily Activity 3D数据集上的动作识别任务中,性能优于当前最先进的无监督方法,于NTU RGB+D数据集上达到88.7%的准确率,并在MSR Daily Activity 3D数据集上相比3D轨迹基线方法提升了15%。

ABSTRACT

We present an unsupervised representation learning approach that compactly encodes the motion dependencies in videos. Given a pair of images from a video clip, our framework learns to predict the long-term 3D motions. To reduce the complexity of the learning framework, we propose to describe the motion as a sequence of atomic 3D flows computed with RGB-D modality. We use a Recurrent Neural Network based Encoder-Decoder framework to predict these sequences of flows. We argue that in order for the decoder to reconstruct these sequences, the encoder must learn a robust video representation that captures long-term motion dependencies and spatial-temporal relations. We demonstrate the effectiveness of our learned temporal representations on activity classification across multiple modalities and datasets such as NTU RGB+D and MSR Daily Activity 3D. Our framework is generic to any input modality, i.e., RGB, Depth, and RGB-D videos.

研究动机与目标

  • 学习鲁棒的无监督视频表征,以捕捉长期运动依赖性,且无需人工标注的标签。
  • 解决现有方法依赖高维或视角特定的运动表征(如2D光流或密集轨迹)的局限性。
  • 通过将运动建模为一系列低维3D原子运动场,而非原始像素级或2D运动线索,来提升动作识别性能。
  • 展示所学习表征在不同输入模态(RGB、深度、RGB-D)和数据集之间的泛化能力。

提出的方法

  • 该框架使用一对输入帧来预测一系列原子3D运动场,这些运动场通过RGB-D数据中密集3D光流的聚类计算得出。
  • 采用基于长短期记忆(LSTM)网络的编码器-解码器架构,从输入帧对中学习时间表征。
  • 编码器使用卷积网络对输入帧进行下采样,以提取低维特征,再送入LSTM进行处理。
  • 解码器使用转置卷积(反卷积层)重建原子3D运动场序列,支持端到端训练。
  • 通过最小化预测与真实原子运动场序列之间的重建损失,实现无监督训练。
  • 该方法在模态间具有泛化能力:RGB → 运动、深度 → 运动、RGB-D → 运动,支持跨模态评估。

实验结果

研究问题

  • RQ1预测一系列原子3D运动场能否作为视频表征学习的有效无监督预训练目标?
  • RQ2与2D运动相比,建模3D运动如何影响所学习视频表征的判别能力?
  • RQ3该无监督表征在不同输入模态(RGB、深度、RGB-D)和数据集之间,其泛化能力达到何种程度?
  • RQ4增加预测运动序列的长度是否能提升下游动作识别任务中所学表征的质量?
  • RQ5与当前最先进的无监督视频表征学习方法相比,该方法在动作识别准确率方面表现如何?

主要发现

  • 所提方法在NTU RGB+D数据集上的动作识别任务中达到88.7%的top-1准确率,优于以往的无监督方法。
  • 在MSR Daily Activity 3D数据集上,该方法相比3D轨迹基线方法提升了15%,展现出更强的判别能力。
  • 预测更长的运动序列(8步预测)比短序列(3步预测)获得更高的分类准确率,证实长期依赖性有助于提升表征质量。
  • 在RGB-D数据上训练的模型能很好地泛化到仅RGB输入,在UCF-101数据集上无需微调即可达到53.0%的平均mAP,优于其他无监督方法。
  • 当与ImageNet预训练特征结合(晚期融合)时,该方法在UCF-101数据集上达到79.3%的平均mAP,甚至超过无监督LSTM基线方法。
  • 消融研究证实,与2D运动相比,建模3D运动可显著提升性能,验证了3D运动建模的重要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。