[论文解读] Learning to Separate Object Sounds by Watching Unlabeled Video
本文提出一种无监督方法,通过利用视觉上下文,基于大规模未标注视频学习特定于物体的音频表征。该方法借助视觉物体检测与非负矩阵分解(NMF),将混合音频分解为基于物体的音频成分,在真实世界视频的视觉辅助音频源分离与去噪任务中达到最先进性能。
Perceiving a scene most fully requires all the senses. Yet modeling how objects look and sound is challenging: most natural scenes and events contain multiple objects, and the audio track mixes all the sound sources together. We propose to learn audio-visual object models from unlabeled video, then exploit the visual context to perform audio source separation in novel videos. Our approach relies on a deep multi-instance multi-label learning framework to disentangle the audio frequency bases that map to individual visual objects, even without observing/hearing those objects in isolation. We show how the recovered disentangled bases can be used to guide audio source separation to obtain better-separated, object-level sounds. Our work is the first to learn audio source separation from large-scale "in the wild" videos containing multiple audio sources per video. We obtain state-of-the-art results on visually-aided audio source separation and audio denoising. Our video results: http://vision.cs.utexas.edu/projects/separating_object_sounds/
研究动机与目标
- 从大规模未标注视频中学习物体级别的音频表征,其中音频源相互混合。
- 解决在真实世界视频中存在多个重叠声音源且无孤立训练样本情况下的音频源分离挑战。
- 利用图像识别提供的视觉上下文,弱监督音频基函数的解耦。
- 在无需多麦克风设置或预标注音频数据的前提下,实现在新场景、非受限视频中的视觉辅助音频源分离。
提出的方法
- 使用最先进的卷积神经网络(CNN)检测每一帧视频中的视觉物体,为音视频对齐提供弱监督信号。
- 对每个视频的音频应用非负矩阵分解(NMF),提取表示潜在声音成分的频率基向量。
- 训练一个深层多实例多标签(MIML)神经网络,预测音频基与检测到的视觉物体之间的关联。
- 通过在视频间映射音频基到视觉物体分布,学习每个物体的原型频谱模式。
- 将学习到的特定于物体的音频基作为先验,指导新视频中基于NMF的音频源分离。
- 将解耦的音频基注入源分离框架,从混合音频中重建出各个物体的声音。
实验结果
研究问题
- RQ1能否在无任何音频监督的情况下,利用未标注视频中图像识别提供的视觉上下文,将混合音频解耦为特定于物体的成分?
- RQ2模型在仅使用视觉线索和自监督学习的情况下,对‘真实世界’视频中新物体声音的分离能力如何?
- RQ3多实例多标签学习框架在多样化的真实世界视频数据中,能多大程度上学习到有意义的音视频关联?
- RQ4所学习到的音视频先验是否能在音频源分离与去噪任务上超越监督基线方法?
- RQ5该方法对视觉误分类或非可见声源的鲁棒性如何?
主要发现
- 该方法在视觉辅助音频源分离任务上达到最先进性能,在基准视频上优于先前方法。
- 在音频去噪任务中,该方法平均达到10.5 dB的NSDR,优于先前方法如Sparse CCA(5.12 dB)和JIVE(3.87 dB)。
- 模型成功识别并分离出非可见物体的声音,例如背景中播放的钢琴声,即使在测试帧中未被检测到。
- 定性结果表明,MIML网络即使在视觉检测不准确的情况下,也能将音频基与正确的物体类别关联起来。
- 该方法在多样化物体类别和真实世界视频内容(包括乐器、动物和车辆)上均表现出良好的泛化能力。
- 该方法对视觉误分类和非视觉声源表现出鲁棒性,表明其能从大规模数据中有效学习音视频先验。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。