[论文解读] Self-Supervised Learning by Cross-Modal Audio-Video Clustering
论文介绍 Cross-Modal Deep Clustering (XDC) 用于自监督学习从未标注的视频,通过在一个模态(音频或视频)中进行聚类来作为对另一个模态的监督信号,实现最先进的结果,有时甚至优于大规模有监督预训练。
Visual and audio modalities are highly correlated, yet they contain different information. Their strong correlation makes it possible to predict the semantics of one from the other with good accuracy. Their intrinsic differences make cross-modal prediction a potentially more rewarding pretext task for self-supervised learning of video and audio representations compared to within-modality learning. Based on this intuition, we propose Cross-Modal Deep Clustering (XDC), a novel self-supervised method that leverages unsupervised clustering in one modality (e.g., audio) as a supervisory signal for the other modality (e.g., video). This cross-modal supervision helps XDC utilize the semantic correlation and the differences between the two modalities. Our experiments show that XDC outperforms single-modality clustering and other multi-modal variants. XDC achieves state-of-the-art accuracy among self-supervised methods on multiple video and audio benchmarks. Most importantly, our video model pretrained on large-scale unlabeled data significantly outperforms the same model pretrained with full-supervision on ImageNet and Kinetics for action recognition on HMDB51 and UCF101. To the best of our knowledge, XDC is the first self-supervised learning method that outperforms large-scale fully-supervised pretraining for action recognition on the same architecture.
研究动机与目标
- 降低对手动标注视频数据在动作理解中的依赖的动机。
- 利用音频和视频模态之间的强相关性以及互补信息。
- 提出跨模态聚类框架,使用一种模态的伪标签来训练另一种模态。
- 展示跨模态自监督在下游动作识别和音频分类上的提升。
提出的方法
- 将 DeepCluster 风格的自监督适配到具有两个编码器的多模态设置(可视 E_v 和音频 E_a)。
- 提出三种模型:Multi-Head Deep Clustering (MDC)、Concatenation Deep Clustering (CDC) 和 Cross-Modal Deep Clustering (XDC)。
- MDC 为每个编码器添加第二个头部,由另一模态的聚类分配进行监督。
- CDC 对联合的视觉+音频特征进行聚类,并将这些聚类用作两个编码器的伪标签。
- XDC 使用另一模态的聚类作为对每个编码器的专属监督,实现跨模态自监督。
- 编码器生成模态特定的特征,这些特征被聚类(k-means)以产生伪标签,迭代地改进表示。
实验结果
研究问题
- RQ1多模态自监督聚类框架(MDC、CDC、XDC)与单模态基线相比的表现如何?
- RQ2在不同数据集上,k-means 的聚类数 k 对 XDC 性能的影响如何?
- RQ3预训练数据的类型(经过筛选的 vs 未经筛选)和规模如何影响 XDC 对下游任务的迁移?
- RQ4XDC 能否在标准的动作识别和音频分类基准上超过完全有监督的预训练?
主要发现
- 所有三种多模态模型在下游任务上都优于单模态 DeepCluster 基线。
- 在评估的数据集上,XDC 始终在所提出的模型中取得最佳性能。
- 在大规模未标注数据上预训练的 XDC,可以在 HMDB51/UCF101 的动作识别任务中超越 Kinetics/ImageNet 的完全监督预训练,成为该设置中的首例。
- 在 AudioSet 或 IG-Random/IG-Kinetics 上预训练的 XDC 展现出强劲的迁移能力,随着预训练数据规模的增加,性能提升。
- 作为固定特征提取器使用时,XDC 往往优于若干完全监督模型,且使用 XDC 的全微调仍具竞争力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。