[论文解读] VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
VATT 使用多模态对比学习损失,在原始视频、音频和文本上训练无卷积的 Transformer,在视频动作识别和音频事件分类方面实现了无监督预训练的最新成果。
We present a framework for learning multimodal representations from unlabeled data using convolution-free Transformer architectures. Specifically, our Video-Audio-Text Transformer (VATT) takes raw signals as inputs and extracts multimodal representations that are rich enough to benefit a variety of downstream tasks. We train VATT end-to-end from scratch using multimodal contrastive losses and evaluate its performance by the downstream tasks of video action recognition, audio event classification, image classification, and text-to-video retrieval. Furthermore, we study a modality-agnostic, single-backbone Transformer by sharing weights among the three modalities. We show that the convolution-free VATT outperforms state-of-the-art ConvNet-based architectures in the downstream tasks. Especially, VATT's vision Transformer achieves the top-1 accuracy of 82.1% on Kinetics-400, 83.6% on Kinetics-600, 72.7% on Kinetics-700, and 41.1% on Moments in Time, new records while avoiding supervised pre-training. Transferring to image classification leads to 78.7% top-1 accuracy on ImageNet compared to 64.7% by training the same Transformer from scratch, showing the generalizability of our model despite the domain gap between videos and images. VATT's audio Transformer also sets a new record on waveform-based audio event recognition by achieving the mAP of 39.4% on AudioSet without any supervised pre-training. VATT's source code is publicly available.
研究动机与目标
- 通过利用大规模多模态视频数据来减少对带标签数据的依赖。
- 开发一个无卷积的 Transformer 架构,用于处理原始视频、音频和文本输入。
- 提出一个具有分层通用空间的多模态对比学习目标,用于跨模态对齐。
- 评估所学习的表示在视频动作识别、音频事件分类、图像分类以及文本到视频检索上的表现。
提出的方法
- 对视频、音频和文本输入使用各自模态的标记化以及分离的位置信编码。
- 采用无卷积的 Transformer 主干网络,并引入聚合令牌以表示序列。
- 引入 DropToken,在训练过程中随机丢弃令牌子集以降低计算量。
- 构建带有投影 g 的语义层次化公共空间,通过 NCE 和 MIL-NCE 损失对齐视频、音频和文本。
- 在 HowTo100M(视频-音频-文本)和 AudioSet(视频-音频)上使用多模态对比目标进行训练。
- 可选地在模态之间共享权重,形成一个模态无关的主干网络(VATT-MA)。
实验结果
研究问题
- RQ1一个单一的无卷积 Transformer 主干网络能否通过自监督多模态目标从原始视频、音频和文本中学习?
- RQ2一个模态无关的 Transformer 在各任务上是否能与面向模态的骨干网络相媲美?
- RQ3DropToken 在高分辨率多模态数据的训练效率和下游性能上有何影响?
- RQ4VATT 表征对图像分类和零-shot 文本到视频检索的迁移能力如何?
主要发现
| 方法 | Kinetics-400 Top-1 | Kinetics-400 Top-5 | Kinetics-600 Top-1 | Kinetics-600 Top-5 | Moments in Time Top-1 | Moments in Time Top-5 | TFLOPs |
|---|---|---|---|---|---|---|---|
| VATT-Base | 79.6 | 94.9 | 80.5 | 95.5 | 38.7 | 67.5 | 9.09 |
| VATT-Medium | 81.1 | 95.6 | 82.4 | 96.1 | 39.5 | 68.2 | 15.02 |
| VATT-Large | 82.1 | 95.5 | 83.6 | 96.6 | 41.1 | 67.7 | 29.80 |
| VATT-MA-Medium | 79.9 | 94.9 | 80.8 | 95.5 | 37.8 | 65.9 | 15.02 |
- VATT 在 Kinetics-400 微调后实现 top-1 82.1%、top-5 93.6%(Kinetics-400 及 83.6%/96.6% 在 Kinetics-600,均在未进行有监督预训练的情况下)。
- VATT 的视觉主干从多模态数据预训练后迁移到 ImageNet 的 top-1 为 78.7%,与有监督预训练的 ViT 变体相当。
- 在 AudioSet 微调的 Audio Transformer 的平均精度 (mAP) 为 39.4%,超过基于 CNN 的基线。
- 在 YouCook2 与 MSR-VTT 上使用 VATT 的视频-文本空间进行零-shot 文本到视频检索,取得与以往多模态方法相当的结果,同时观察到批量大小和训练轮次的影响。
- 模态无关主干(VATT-MA)在微调后在视频动作识别任务上与面向模态的骨干网络持平。
- DropToken 在不显著损害下游性能的前提下显著降低了预训练计算量,使高分辨率输入成为可能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。