Skip to main content
QUICK REVIEW

[论文解读] Audio-Visual Event Localization in Unconstrained Videos

Yapeng Tian, Jing Shi|arXiv (Cornell University)|Mar 23, 2018
Music and Audio Processing参考文献 4被引用 28
一句话总结

本文提出了一种用于非受限视频的新型音视频事件定位框架,引入了一个新数据集和三项任务:监督学习、弱监督学习以及跨模态定位。该方法采用基于音频的视觉注意力机制、用于特征融合的双模态残差网络(DMRN),以及基于对比损失的音视频距离学习网络,通过利用强音视频相关性和时间对齐,实现了最先进性能。

ABSTRACT

In this paper, we introduce a novel problem of audio-visual event localization in unconstrained videos. We define an audio-visual event as an event that is both visible and audible in a video segment. We collect an Audio-Visual Event(AVE) dataset to systemically investigate three temporal localization tasks: supervised and weakly-supervised audio-visual event localization, and cross-modality localization. We develop an audio-guided visual attention mechanism to explore audio-visual correlations, propose a dual multimodal residual network (DMRN) to fuse information over the two modalities, and introduce an audio-visual distance learning network to handle the cross-modality localization. Our experiments support the following findings: joint modeling of auditory and visual modalities outperforms independent modeling, the learned attention can capture semantics of sounding objects, temporal alignment is important for audio-visual fusion, the proposed DMRN is effective in fusing audio-visual features, and strong correlations between the two modalities enable cross-modality localization.

研究动机与目标

  • 研究非受限视频中事件同时可见且可听时的音视频联合建模,以实现时间定位。
  • 探究如何有效融合音频与视觉模态以提升定位精度。
  • 探索在弱监督和零样本设置下,基于音频引导的视觉注意力机制与跨模态定位的优势。
  • 基于新收集的、大规模的4,143个非受限视频数据集,建立音视频事件定位的基准。

提出的方法

  • 提出一种基于音频的视觉注意力机制,可自适应地突出显示与发声物体对应的视觉区域,提升特征的相关性。
  • 引入一种双模态残差网络(DMRN),通过残差学习融合音频与视觉特征,增强表征学习能力。
  • 采用基于对比损失的音视频距离学习网络,将音频与视觉特征映射到共享子空间,以实现跨模态匹配。
  • 使用C3D网络提取时空视觉特征,并采用预训练的VGG类模型对音频谱图进行嵌入,通过全局平均池化获得序列级表征。
  • 将多实例学习(MIL)与池化层结合,以处理仅提供视频级别标签的弱监督定位任务。
  • 采用对数梅尔谱图块和预训练音频模型最后一层全连接层输出的128维音频特征,以获得鲁棒的音频表征。

实验结果

研究问题

  • RQ1联合建模听觉与视觉模态是否在音视频事件定位中优于独立建模?
  • RQ2在噪声或弱监督训练条件下,性能如何退化?
  • RQ3能否通过注意力机制,使一个模态(如音频)的知识提升对另一模态(如视觉)的建模效果?
  • RQ4在时间定位任务中,音频与视觉特征融合的最有效方式是什么?
  • RQ5我们能否利用学习到的表征实现跨模态定位——即从音频定位视觉事件,或从视觉事件定位音频?

主要发现

  • 联合建模音频与视觉模态显著优于独立建模,在使用A′+V融合的监督任务中达到70.2%的准确率。
  • 基于音频的视觉注意力机制成功定位了包含发声物体的语义区域,并能区分音视频无关的视频。
  • 时间对齐对有效音视频融合至关重要,因特征错位会显著降低性能。
  • 所提出的双模态残差网络(DMRN)在所有测试方法中实现了最佳融合性能,证明其在多模态学习中的有效性。
  • 音频与视觉模态之间的强相关性使得跨模态定位成为可能,这通过音视频距离学习网络的成功得到验证。
  • 音频特征与空间视觉特征(V_s)在AVE数据集上的表现优于基于C3D的时空特征,表明对于此任务,语义内容比运动建模更为关键。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。