[论文解读] Objects that Sound
本文提出一种自监督的音视频表征学习框架,通过在无标注视频上利用音视频对应性(AVC)进行训练,实现跨模态检索与声源定位的联合优化。仅利用音视频对齐作为监督信号,该方法学习共享嵌入表征,支持音频到图像和图像到音频的检索任务,并仅通过音频信号即可准确地在图像中定位发声物体。
In this paper our objectives are, first, networks that can embed audio and visual inputs into a common space that is suitable for cross-modal retrieval; and second, a network that can localize the object that sounds in an image, given the audio signal. We achieve both these objectives by training from unlabelled video using only audio-visual correspondence (AVC) as the objective function. This is a form of cross-modal self-supervision from video. To this end, we design new network architectures that can be trained for cross-modal retrieval and localizing the sound source in an image, by using the AVC task. We make the following contributions: (i) show that audio and visual embeddings can be learnt that enable both within-mode (e.g. audio-to-audio) and between-mode retrieval; (ii) explore various architectures for the AVC task, including those for the visual stream that ingest a single image, or multiple images, or a single image and multi-frame optical flow; (iii) show that the semantic object that sounds within an image can be localized (using only the sound, no motion or flow information); and (iv) give a cautionary tale on how to avoid undesirable shortcuts in the data preparation.
研究动机与目标
- 学习支持无人工标注的跨模态检索的联合音视频嵌入表征。
- 仅使用音频信号定位图像中发声物体,而无需依赖运动或光流信息。
- 仅使用音视频对应性作为自监督信号,从无标注视频中训练统一的网络架构。
- 探索视觉编码器的多种架构变体,包括单张图像、多张图像以及图像与光流的组合。
- 识别并缓解数据准备过程中的捷径问题,以避免自监督学习中出现虚假相关性。
提出的方法
- 使用音视频对应性(AVC)作为唯一目标训练深度神经网络,利用无标注视频中音频与视觉片段之间的时序对齐。
- 设计一个双流网络结构,共享投影头,将音频和视觉输入映射到共享嵌入空间。
- 采用对比学习优化嵌入空间,使匹配的音视频对彼此靠近,不匹配的对彼此远离。
- 探索视觉流的多种变体:单张图像、多张图像,以及单张图像结合多帧光流,以评估其对表征质量的影响。
- 在视觉流上添加定位头,仅使用音频嵌入作为输入,预测发声物体的边界框。
- 应用数据增强和谨慎的采样策略,以避免捷径,例如依赖与声音无关的视觉线索。
实验结果
研究问题
- RQ1仅通过音视频对应性,能否联合学习音视频表征,以支持同模态与跨模态检索?
- RQ2在音视频表征学习中,哪种视觉流架构(单张图像、多张图像、图像+光流)表现最佳?
- RQ3模型能否仅使用音频信号实现图像中发声物体的定位,而无需运动或光流信息?
- RQ4哪些数据准备陷阱可能导致虚假相关性,以及如何避免?
- RQ5通过AVC进行自监督学习,在下游检索与定位任务中,与监督或弱监督基线相比表现如何?
主要发现
- 模型在音频到图像和图像到音频检索任务中均表现出色,证明了共享嵌入空间中有效的跨模态对齐。
- 结合多帧光流的视觉编码器优于仅使用静态图像的模型,表明运动信息能提升表征质量。
- 模型仅通过音频信号即可成功定位图像中的发声物体,实现高精度定位,且不依赖运动线索。
- 消融实验表明,某些数据准备选择(如错误的帧采样)可能导致捷径,使模型利用非语义线索而非学习音视频对齐。
- 所提方法在多种视频分布上泛化良好,表现出对自监督预训练中领域偏移的鲁棒性。
- 以AVC作为目标函数的对比学习在下游检索与定位基准上实现了最先进性能,且无需任何人工标注。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。