[论文解读] Self-Supervised Spatiotemporal Feature Learning via Video Rotation Prediction
本文提出 3DRotNet,是一个完全自监督的 3D CNN,通过预测旋转变换来学习时空视频特征,能够将该特征迁移到小数据集上的动作识别任务,表现强劲。
The success of deep neural networks generally requires a vast amount of training data to be labeled, which is expensive and unfeasible in scale, especially for video collections. To alleviate this problem, in this paper, we propose 3DRotNet: a fully self-supervised approach to learn spatiotemporal features from unlabeled videos. A set of rotations are applied to all videos, and a pretext task is defined as prediction of these rotations. When accomplishing this task, 3DRotNet is actually trained to understand the semantic concepts and motions in videos. In other words, it learns a spatiotemporal video representation, which can be transferred to improve video understanding tasks in small datasets. Our extensive experiments successfully demonstrate the effectiveness of the proposed framework on action recognition, leading to significant improvements over the state-of-the-art self-supervised methods. With the self-supervised pre-trained 3DRotNet from large datasets, the recognition accuracy is boosted up by 20.4% on UCF101 and 16.7% on HMDB51 respectively, compared to the models trained from scratch.
研究动机与目标
- 在大规模视频数据集中标注成本高昂的情况下,推动学习无标签的视频表示。
- 提出一个旋转预测的前置任务,以联合捕捉空间和时间的线索。
- 证明自监督预训练在小数据集上的下游动作识别任务中有所提升。
- 展示从旋转预测学习的特征能够在不同数据集和任务之间实现有效迁移。
提出的方法
- 使用 3D ResNet-18 作为骨干网络来学习时空特征。
- 对每个视频片段应用四个离散旋转(0°, 90°, 180°, 270°)。
- 训练 F 以通过分类目标(交叉熵)或回归(可选)来预测所应用的旋转。
- 在大型无标签视频数据集(Kinetics、Moment in Time)上进行预训练,并迁移到动作识别任务。
- 在 UCF101 和 HMDB51 上微调学习到的特征以评估迁移性能。
实验结果
研究问题
- RQ1在不使用标签的情况下,通过解决旋转预测的前置任务,3D CNN 是否能够学习到有意义的时空视频表示?
- RQ2与从头训练和其他自监督方法相比,自监督特征在小数据集上的动作识别迁移是否有效?
- RQ3旋转数量、输入模态(RGB 与 DIF)以及剪辑长度等因素如何影响学习到的表示及迁移性能。
主要发现
- 在 Kinetics/Moment in Time 上进行带旋转预测的预训练,相较于从头训练在迁移后对 UCF101 提升了显著的增益:在 UCF101 提升 20.4 个百分点,在 HMDB51 提升 16.7%。
- 旋转预测任务能够学习到空间和时间线索,注意力图显示前景聚焦于移动主体,类似于有监督模型。
- 3DRotNet-RGB、-DIF 和 -Fusion 变体在 UCF101 和 HMDB51 上均优于先前的自监督方法,Fusion 在 UCF101 达到 76.6%,在 HMDB51 为 47.0%。
- 更长的输入剪辑和 DIF(差分帧)提供更强的时间信号,提升动作识别性能。
- 预训练中使用更多的旋转(4 个旋转)比较少的旋转带来更好的迁移;8/360 度的设置并未优于 4 旋转配置。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。