QUICK REVIEW

[论文解读] Spatiotemporal Contrastive Video Representation Learning

Rui Qian, Tianjian Meng|arXiv (Cornell University)|Aug 9, 2020

Human Pose and Action Recognition参考文献 76被引用 84

一句话总结

一个自监督对比学习框架（CVRL）用于视频，联合利用时序一致的空间增强和基于采样的时间增强，从未标注的视频中学习强大的时空表征，并用线性探针和下游任务评估。

ABSTRACT

We present a self-supervised Contrastive Video Representation Learning (CVRL) method to learn spatiotemporal visual representations from unlabeled videos. Our representations are learned using a contrastive loss, where two augmented clips from the same short video are pulled together in the embedding space, while clips from different videos are pushed away. We study what makes for good data augmentations for video self-supervised learning and find that both spatial and temporal information are crucial. We carefully design data augmentations involving spatial and temporal cues. Concretely, we propose a temporally consistent spatial augmentation method to impose strong spatial augmentations on each frame of the video while maintaining the temporal consistency across frames. We also propose a sampling-based temporal augmentation method to avoid overly enforcing invariance on clips that are distant in time. On Kinetics-600, a linear classifier trained on the representations learned by CVRL achieves 70.4% top-1 accuracy with a 3D-ResNet-50 (R3D-50) backbone, outperforming ImageNet supervised pre-training by 15.7% and SimCLR unsupervised pre-training by 18.8% using the same inflated R3D-50. The performance of CVRL can be further improved to 72.9% with a larger R3D-152 (2x filters) backbone, significantly closing the gap between unsupervised and supervised video representation learning. Our code and models will be available at https://github.com/tensorflow/models/tree/master/official/.

研究动机与目标

激发从未标注数据中学习强大的视频表征。
研究空间和时间增强如何影响自监督视频学习。
开发在保持时间连贯性的同时推动有用的不变性的增强策略。
展示使用更大骨干网络和更多数据的可扩展性，以缩小与有监督视频预训练的差距。

提出的方法

使用对比损失（InfoNCE）将同一视频的两个增强片段拉近，同时将来自不同视频的片段拉远。
使用3D-ResNet骨干网络对片段进行编码（以R3D-50为默认），并配备一个投影头，输出用于对比学习的128维特征。
设计在帧之间应用固定随机性的时序一致的空间增强，以保持运动线索。
实现基于采样的时间增强，其中两个片段之间的时间间隔遵循单调递减分布，以强化近时序片段。
使用大批量训练和同步批规范化进行训练；在冻结的骨干上通过线性探测评估，并对半监督及下游任务进行微调。

实验结果

研究问题

RQ1时空增强是否相较于仅空间或仅时间线索能提升自监督视频表征学习？
RQ2哪些增强策略在获得强空间不变性的同时最好地保留时间动态？
RQ3在标准视频基准上，CVRL在更大骨干网络和更多未标数据下的扩展性如何？
RQ4CVRL 表征如何迁移到半监督学习、动作分类和检测任务？

主要发现

CVRL 在线性评估中取得显著提升，例如在 Kinetics-600 上使用 R3D-50 的 top-1 为 70.4%，使用 R3D-152 为 72.9%，缩小了与有监督方法的差距。
在相同扩展的 3D 骨干下，CVRL 超越 ImageNet 增强和 SimCLR 增强的基线，在 K400 的线性评估中比 ImageNet 预训练提升 15%+，比 SimCLR 提升 18.8%。
将时序一致的空间增强与单调下降的时间采样分布结合，带来显著性能提升（例如 CVRL 的 top-1 为 63.8%，而使用两种增强但不具备时间一致性时为 52.3%）。
更多数据和更大骨干网络不断提升 CVRL 的性能（例如从 200 训练周期扩展到 800，R3D-152 在 K400/K600 上表现强劲）。
在下游任务中，CVRL 在 UCF-101、HMDB-51 和 AVA 动作检测上取得有竞争力/强劲的结果，通常超越单模态并在与多模态基线的对比中达到平价，当在 K400–K600 上进行预训练时。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。