[论文解读] Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of On-Screen Sounds
AudioScope 是一种自监督的音视频声音分离框架,无需依赖标注的音频或视觉数据,即可从非受限的真实世界视频中分离出屏幕上的声音。它利用带有噪声的音视频共现信号进行混合不变训练(MixIT),以学习音视频对齐并抑制屏幕外声音,在 YFCC100m 数据集的开放领域数据上实现了最先进性能。
Recent progress in deep learning has enabled many advances in sound separation and visual scene understanding. However, extracting sound sources which are apparent in natural videos remains an open problem. In this work, we present AudioScope, a novel audio-visual sound separation framework that can be trained without supervision to isolate on-screen sound sources from real in-the-wild videos. Prior audio-visual separation work assumed artificial limitations on the domain of sound classes (e.g., to speech or music), constrained the number of sources, and required strong sound separation or visual segmentation labels. AudioScope overcomes these limitations, operating on an open domain of sounds, with variable numbers of sources, and without labels or prior visual segmentation. The training procedure for AudioScope uses mixture invariant training (MixIT) to separate synthetic mixtures of mixtures (MoMs) into individual sources, where noisy labels for mixtures are provided by an unsupervised audio-visual coincidence model. Using the noisy labels, along with attention between video and audio features, AudioScope learns to identify audio-visual similarity and to suppress off-screen sounds. We demonstrate the effectiveness of our approach using a dataset of video clips extracted from open-domain YFCC100m video data. This dataset contains a wide diversity of sound classes recorded in unconstrained conditions, making the application of previous methods unsuitable. For evaluation and semi-supervised experiments, we collected human labels for presence of on-screen and off-screen sounds on a small subset of clips.
研究动机与目标
- 解决在不依赖标注音频或视觉数据的情况下,从真实世界视频中分离屏幕声音源的挑战。
- 克服先前方法的局限性,这些方法假设声音类别受限、源数量固定或需要强监督。
- 开发一种能够处理非受限视频环境中多样化、开放领域声音类别的框架。
- 仅利用来自音视频共现的弱噪声信号,实现屏幕内与屏幕外声音的有效分离。
- 在大规模真实世界视频数据集上,通过极少监督,展示模型的泛化能力和鲁棒性。
提出的方法
- AudioScope 使用混合不变训练(MixIT)将混合声音的混合物(MoMs)分离为独立的声音源。
- 它采用无监督的音视频共现模型,为音频混合物生成噪声标签,指示哪些声音可能位于屏幕上。
- 通过交叉注意力机制对齐音频和视频特征,以学习音视频对应关系。
- 通过利用噪声共现标签和基于注意力的特征对齐,使模型能够抑制屏幕外声音。
- 在 YFCC100m 数据集的真实视频片段的合成混合物上进行训练,以模拟真实的音视频混合。
- 该框架在开放领域设置下运行,支持可变数量的声音源和多样的声音类别。
实验结果
研究问题
- RQ1一种自监督的音视频框架是否能有效在无任何标注音频或视觉数据的情况下,从真实世界视频中分离出屏幕上的声音?
- RQ2模型在仅使用来自音视频共现的弱噪声信号时,能否有效区分屏幕内与屏幕外的声音?
- RQ3此类模型在非受限视频环境中,对多样化开放领域声音类别的泛化能力如何?
- RQ4AudioScope 在真实世界视频数据上的性能与监督或弱监督基线相比如何?
- RQ5使用混合不变训练结合 MoMs 对音视频声音分离的鲁棒性有何影响?
主要发现
- AudioScope 在 YFCC100m 数据集的多样化真实世界视频数据上,实现了无监督音视频声音分离的最先进性能。
- 该模型成功分离了广泛范围内的声音类别中的屏幕声音,包括非语音和非音乐声音,且无需事先设定类别约束。
- 利用噪声音视频共现信号,可有效抑制屏幕外声音,即使没有真实分割的监督信号。
- 半监督实验表明,少量人工标注的视频片段可显著提升性能,表明弱监督下具有强大的泛化能力。
- 该框架在未见视频片段上泛化良好,并在可变数量声音源的情况下保持鲁棒性。
- AudioScope 表明,结合 MixIT 和音视频注意力的自监督学习,可在开放领域设置下有效学习音视频对齐。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。