Skip to main content
QUICK REVIEW

[论文解读] Look, Listen and Learn

Relja Arandjelović, Andrew Zisserman|arXiv (Cornell University)|May 23, 2017
Speech and Audio Processing被引用 6
一句话总结

本文提出了一种自监督音视频对应(AVC)学习框架,仅使用未修剪、无标签的视频,从零开始训练视觉和音频网络。通过学习预测视频帧与音频片段在时间上是否对应,模型学习到强大且语义有意义的表征——在声音分类基准上达到最先进性能,并支持两种模态的细粒度识别与定位。

ABSTRACT

We consider the question: what can be learnt by looking at and listening to a large number of unlabelled videos? There is a valuable, but so far untapped, source of information contained in the video itself -- the correspondence between the visual and the audio streams, and we introduce a novel "Audio-Visual Correspondence" learning task that makes use of this. Training visual and audio networks from scratch, without any additional supervision other than the raw unconstrained videos themselves, is shown to successfully solve this task, and, more interestingly, result in good visual and audio representations. These features set the new state-of-the-art on two sound classification benchmarks, and perform on par with the state-of-the-art self-supervised approaches on ImageNet classification. We also demonstrate that the network is able to localize objects in both modalities, as well as perform fine-grained recognition tasks.

研究动机与目标

  • 探究是否可利用无标签视频通过音视频对应关系学习丰富的视觉与音频表征。
  • 探索是否可从零开始端到端训练视觉与音频网络,其性能优于固定预训练视觉网络的方法。
  • 评估所学习的表征是否支持细粒度识别与定位任务。
  • 证明通过AVC进行自监督学习可在下游任务中实现与监督方法或对比自监督方法相当或更优的性能。

提出的方法

  • 该方法将问题形式化为二分类任务:判断一个视频帧与一个短音频片段是否对应同一时间点。
  • 采用孪生网络架构,包含独立的视觉与音频塔编码器(视觉使用ResNet-50,音频使用CNN),随后是融合层与分类器。
  • 正样本对从同一视频的相同时间戳中采样;负样本对通过混合不同视频的帧与音频构成。
  • 模型通过交叉熵损失在对应关系预测任务上进行端到端训练,无需类别标签或额外监督。
  • 下游评估使用视觉与音频塔最后一层的特征嵌入。
  • 通过激活图可视化定位声音源,揭示模型在相关区域(如乐器或手部)上的空间注意力。

实验结果

研究问题

  • RQ1通过无标签视频中的音视频对应关系进行自监督学习,是否能获得无需任何人工标注的高质量视觉与音频表征?
  • RQ2从零开始联合训练视觉与音频网络是否优于固定预训练视觉网络的方法?
  • RQ3所学习的表征是否能支持细粒度识别任务,如区分相似乐器?
  • RQ4模型在视觉帧中利用激活图对音频事件源的定位能力有多强?
  • RQ5所学习特征在下游基准上的性能与最先进自监督及监督方法相比如何?

主要发现

  • 音频网络在两个声音分类基准上达到最先进性能,优于近期使用视觉监督的方法。
  • 视觉网络在ImageNet分类任务上的表现与最先进自监督方法相当。
  • 模型学习到细粒度的视觉与音频差异,例如电贝斯与原声吉他、萨克斯与单簧管之间的区别。
  • t-SNE可视化显示,所学习的嵌入按动作类别形成有意义的聚类,表明语义表征学习的成功。
  • 激活图可视化显示,模型在两种模态中均能定位声音源——例如在打字时突出显示手部与键盘,或在音乐表演中突出显示乐器。
  • 使用k-means对L3-Net嵌入进行聚类,得到视觉的NMI评分为0.409,音频为0.330,显著优于随机基线(0.204与0.219)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。