[论文解读] Curriculum Audiovisual Learning
本文提出一个具有软聚类内容检测器和从简单到复杂场景(声源数量变化)进行训练的Curriculum学习策略的灵活视听模型。该方法在未使用外部视觉监督的情况下,实现了改进的单模态表示、跨模态对齐,以及在视听定位与音源分离方面的强性能。
Associating sound and its producer in complex audiovisual scene is a challenging task, especially when we are lack of annotated training data. In this paper, we present a flexible audiovisual model that introduces a soft-clustering module as the audio and visual content detector, and regards the pervasive property of audiovisual concurrency as the latent supervision for inferring the correlation among detected contents. To ease the difficulty of audiovisual learning, we propose a novel curriculum learning strategy that trains the model from simple to complex scene. We show that such ordered learning procedure rewards the model the merits of easy training and fast convergence. Meanwhile, our audiovisual model can also provide effective unimodal representation and cross-modal alignment performance. We further deploy the well-trained model into practical audiovisual sound localization and separation task. We show that our localization model significantly outperforms existing methods, based on which we show comparable performance in sound separation without referring external visual supervision. Our video demo can be found at https://youtu.be/kuClfGG0cFU.
研究动机与目标
- 在异质场景复杂度下学习视听内容对齐(声源数量变化)。
- 开发一个软聚类内容检测器,用于识别音频/视觉组件并推断潜在的跨模态对齐。
- 引入课程视听学习(CAVL),从简单场景到复杂场景训练以提升收敛性。
- 通过定位和分离任务展示单模态表示质量与跨模态感知。
提出的方法
- 将音频表示为声谱图,视觉表示为图像特征图;在通道空间应用软K均值聚类,以发现潜在的声音源与对象。
- 通过结构化相似性目标和对比损失,将音频与视觉聚类中心进行匹配,从而计算跨模态对齐。
- 通过按声源数量对数据排序并相应调整聚类数量(k_a, k_v)进行课程训练。
- 用泊松回归网络从音频特征预测预计的声源数量来估计场景复杂度。
- 通过将音频中心与视觉中心匹配并将分配投影为用于定位的空间掩码来定位声音源。
- 通过将视觉引导的“声源生成器”表示输入到分离网络中,进行视听声音分离,将目标声音从混合物中分离。
实验结果
研究问题
- RQ1我们如何在没有强标签的情况下,在声源数量变化的场景中学习鲁棒的视听内容对齐?
- RQ2基于软聚类的检测器和潜在对齐目标是否能够在无需外部视觉监督的情况下实现有效的跨模态感知及下游任务(定位与分离)?
- RQ3由简单场景逐步过渡到复杂场景的课程学习是否能改善训练收敛性和对齐性能?
- RQ4学得的视听表示在定位和分离方面是否能提供与依赖外部视觉监督的方法相竞争或更优的表现?
- RQ5基于泊松回归的复杂度估计在预测视听场景复杂度和引导课程调度方面的效果如何?
主要发现
- 通过对音频和视觉特征图进行软聚类并对齐中心,提出的模型在跨模态对齐和单模态表示方面实现了改进。
- 课程学习(从单源场景到多源场景)加速训练并提升收敛性与对齐性能。
- 该方法在视听声音定位方面表现强劲,在标准测试中超越基线,并在没有外部监督的情况下为声音分离提供具有竞争力的视觉引导。
- 基于泊松回归的复杂度估计有益于课程排序,并提升从音频特征预测声源数量的准确性。
- 定位派生的视觉表示在 MIT-MUSIC 数据集上实现了有竞争力的音乐分离结果,所需训练样本比某些Prior方法更少。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。