[论文解读] Unsupervised Learning of View-invariant Action Representations
本文提出一个无监督框架,通过从源视角预测跨视角的3D运动,在视图对抗训练的辅助下学习与视角不变的视频表征,并在跨视角和跨主体的动作识别中表现出强劲性能。
The recent success in human action recognition with deep learning methods mostly adopt the supervised learning paradigm, which requires significant amount of manually labeled data to achieve good performance. However, label collection is an expensive and time-consuming process. In this work, we propose an unsupervised learning framework, which exploits unlabeled data to learn video representations. Different from previous works in video representation learning, our unsupervised learning task is to predict 3D motion in multiple target views using video representation from a source view. By learning to extrapolate cross-view motions, the representation can capture view-invariant motion dynamics which is discriminative for the action. In addition, we propose a view-adversarial training method to enhance learning of view-invariant features. We demonstrate the effectiveness of the learned representations for action recognition on multiple datasets.
研究动机与目标
- 通过利用未标注的多视角视频数据来减少对动作识别标注数据的依赖的动机。
- 学习一个视图不变的运动表征,能够从源视角预测其他视角的3D流。
- 通过视角对抗训练目标来鼓励视角不变性。
- 在跨主体和跨视图的动作识别中,覆盖RGB、深度和光流模态,展示有效性。
提出的方法
- 使用基于 CNN+BiLSTM 的编码器对多视角视频帧进行编码,以提取对运动敏感的特征。
- 使用跨视角解码器,利用视角特定的深度锚点来预测其他视角的3D流序列。
- 使用重构解码器对同一视角的流进行重构,以强化对运动动力学的捕捉。
- 应用带有梯度翻转层的视角分类器,以促进视角不变表示的学习(对抗训练)。
- 将跨视角流预测、流重构和视角分类的损失组合,以端到端训练。
实验结果
研究问题
- RQ1一个无监督模型是否可以通过预测跨视角运动来学习对视点变化鲁棒的表征?
- RQ2视角对抗训练如何影响所学习表征的不变性与判别力?
- RQ3所学习的表征在跨模态的多模态下是否能有效迁移到跨主体和跨视角的动作识别?
主要发现
| 方法 | 跨主体 RGB | 跨主体 深度 | 跨主体 流 | 跨视图 RGB | 跨视图 深度 | 跨视图 流 |
|---|---|---|---|---|---|---|
| proposed method w/o \\u03bb_recon & \\u03bb_cls | 0.0267 | 0.0244 | 0.0201 | 0.0265 | 0.0238 | 0.0199 |
| proposed method w/o \\u03bb_cls | 0.0259 | 0.0235 | 0.0198 | 0.0252 | 0.0223 | 0.0194 |
| proposed method | 0.0254 | 0.0229 | 0.0193 | 0.0248 | 0.0220 | 0.0193 |
- 基于流的跨视角预测在RGB、深度和流中最强,表明流包含更多对视角不变的运动信息。
- 将流重构和视角对抗训练结合后,跨模态的跨视角流预测得到提升。
- 无监督学习的表征在动作识别方面表现出竞争力,尤其是使用流输入时,并且在监督评估阶段对编码器进行微调或固定时有益。
- 与若干基线相比,该方法在跨主体和跨视图的准确率方面具有优势,并且在使用其他模态的最新方法中达到可比结果。
- 迁移到其他数据集(MSR-DailyActivity3D 和 Northwestern-UCLA MultiviewAction3D)表明学习得到的表征在微调时能跨域泛化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。