QUICK REVIEW

[论文解读] VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning

Hao Tan, Jie Lei|arXiv (Cornell University)|Jun 21, 2021

Multimodal Machine Learning Applications参考文献 22被引用 33

一句话总结

VIMPAC 将基于块的掩码标记预测应用于 VQ-VAE 令牌，并结合对比学习进行视频预训练，在时序数据密集的数据集上达到最先进的结果，在时空数据量大但空间维度密集的数据集上也具有竞争力，且不依赖大量数据增强。

ABSTRACT

Video understanding relies on perceiving the global content and modeling its internal connections (e.g., causality, movement, and spatio-temporal correspondence). To learn these interactions, we apply a mask-then-predict pre-training task on discretized video tokens generated via VQ-VAE. Unlike language, where the text tokens are more independent, neighboring video tokens typically have strong correlations (e.g., consecutive video frames usually look very similar), and hence uniformly masking individual tokens will make the task too trivial to learn useful representations. To deal with this issue, we propose a block-wise masking strategy where we mask neighboring video tokens in both spatial and temporal domains. We also add an augmentation-free contrastive learning method to further capture the global content by predicting whether the video clips are sampled from the same video. We pre-train our model on uncurated videos and show that our pre-trained model can reach state-of-the-art results on several video understanding datasets (e.g., SSV2, Diving48). Lastly, we provide detailed analyses on model scalability and pre-training method design. Code is released at https://github.com/airsplay/vimpac.

研究动机与目标

通过将局部令牌建模与全局内容判别相结合，激发学习鲁棒的视频表征。
开发一种掩码策略，考虑视频中时空令牌之间的相关性。
利用不依赖大量数据增强的对比学习目标。
证明通过 VQ-VAE 令牌化得到的表示能够在未经精筛的免费视频上实现高效、可扩展的预训练。

提出的方法

使用冻结的 VQ-VAE 编码器对视频帧进行分词，以获得每帧的离散令牌映射。
应用块级（3D 时空）掩码以创建具有挑战性的重建目标。
使用 Transformer 编码器通过先掩码再预测的目标来训练重建被掩码的令牌。
同时，对经过令牌化的片段执行 InfoNCE 对比学习，正样本来自同一视频，负样本来自其他视频。
将 mask-then-predict 损失与放缩后的对比损失结合成联合预训练目标 L = L_mask + alpha * gamma * L_cl。

实验结果

研究问题

RQ1离散化视频令牌的块级掩码是否能比均匀掩码产生更丰富的时空表征？
RQ2将对比目标与令牌重建结合是否能提升全局、可分离的视频表示？
RQ3预训练设计（掩码策略、对比采样和令牌量化）如何影响时序密集与时空密集的视频数据集？
RQ4模型大小、输入分辨率和预训练设置对下游视频分类性能的影响是什么？

主要发现

VIMPAC 在时序密集的数据集 SSV2 和 Diving48 的自监督和有监督预训练情境下取得了最先进的结果。
在时空密集的数据集（UCF101、HMDB51、Kinetics-400）上，VIMPAC 相较于此前方法表现具有竞争力。
块级掩码在下游 UCF101 上优于独立同分布掩码，尽管掩码标记预测准确性较低，表明更好地学习了全局结构。
VIMPAC 的对比学习受益于长距离的正样本对（最长可达 400 秒），且不需要强力的数据增强。
增大模型规模和时空输入分辨率通常会提升下游准确性，尤其在 UCF101 上，较长的片段带来显著提升。
使用 VQ-VAE 令牌化使得实现去噪/重建更加高效，而非像素级生成，在减少计算量的同时保留有用的表示。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。