[论文解读] Zorro: the masked multimodal transformer
Zorro 在 Transformer 中引入模态感知掩蔽,能够在单一骨干网络内输出单模态和多模态结果,支持自监督对比学习和单模态推断,以及多模态任务。它在保持单模态评估能力的同时,在音视频基准上实现强劲表现。
Attention-based models are appealing for multimodal processing because inputs from multiple modalities can be concatenated and fed to a single backbone network - thus requiring very little fusion engineering. The resulting representations are however fully entangled throughout the network, which may not always be desirable: in learning, contrastive audio-visual self-supervised learning requires independent audio and visual features to operate, otherwise learning collapses; in inference, evaluation of audio-visual models should be possible on benchmarks having just audio or just video. In this paper, we introduce Zorro, a technique that uses masks to control how inputs from each modality are routed inside Transformers, keeping some parts of the representation modality-pure. We apply this technique to three popular transformer-based architectures (ViT, Swin and HiP) and show that with contrastive pre-training Zorro achieves state-of-the-art results on most relevant benchmarks for multimodal tasks (AudioSet and VGGSound). Furthermore, the resulting models are able to perform unimodal inference on both video and audio benchmarks such as Kinetics-400 or ESC-50.
研究动机与目标
- 激发在某些模态缺失时仍能正常工作的多模态感知,受人类感知灵活性的启发。
- 开发一种 Transformer 架构,通过掩蔽将表示分割为单模态与融合流,以防止不希望的跨模态纠缠。
- 在同一模型中实现有监督学习和自监督对比式预训练,该模型可以处理音频、视频或两者皆可。
- 在音视频基准上展示最先进或具竞争力的性能,并在单模态基准上展示单模态推断能力。
提出的方法
- 提出 Zorro 掩蔽,在标准 Transformer 骨干内创建三种表示流:单模态(音频或视频)和融合。
- 应用模态特定和融合注意力掩蔽,阻断来自单模态流向其他模态的信息流,保留模态纯净表示。
- 在 ViT、Swin 和 HiP 骨干上扩展 Zorro,并进行架构特定的调整。
- 使用基于跨注意力的解码查询来生成音频、视频、融合和全局表示的输出。
- 通过辅助投影和温度缩放的对比噪声估计损失,将单模态输出与融合输出对齐,进行音视频对比预训练。
- 在有监督训练期间,学习四个输出(音频、视频、融合和全局),并为每个输出训练分类器,平均化预测。
实验结果
研究问题
- RQ1在 Transformer 内部的掩蔽是否可以在不使自监督损失崩溃的情况下,保持单模态表示并实现跨模态融合?
- RQ2单一的 Zorro 骨干是否在多模态基准上支持有效的自监督音视频预训练并在有监督微调中具有竞争力?
- RQ3在单模态上评估多模态骨干时,是否能够维持或恢复单模态推断?
- RQ4相较于先前的多模态架构,Zorro 在 AudioSet、VGGSound、Kinetics-400 和 ESC-50 上的相对收益为何?
- RQ5不同掩蔽配置在有监督和自监督设置下如何影响性能?
主要发现
- Zorro 在若干自监督基准的多模态任务上达到最先进的性能(AudioSet 和 VGGSound)。
- 在自监督预训练下,Zorro 缩小了与 AudioSet 上有监督预训练的差距,在 VGGSound 和 Kinetics-400 上保持竞争力。
- Zorro 即使在多模态数据上训练,也能在视频和音频基准上实现单模态推断,优于不支持单模态评估的架构。
- 对比架构(ViT、Swin、HiP)显示出不同的取舍;Zorro-Swin 在从头训练基线设置中取得强结果,ViT 在采用模态层级参数共享时提供健壮性能。
- 掩蔽策略(Zorro)有助于保持模态纯净流,实现有效自监督且不导致表示崩溃,并允许融合的跨模态输出。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。