QUICK REVIEW

[论文解读] Audio-Visual Event Localization in Unconstrained Videos

Yapeng Tian, Jing Shi|arXiv (Cornell University)|Mar 23, 2018

Music and Audio Processing参考文献 4被引用 28

一句话总结

本文提出了一种用于非受限视频的新型音视频事件定位框架，引入了一个新数据集和三项任务：监督学习、弱监督学习以及跨模态定位。该方法采用基于音频的视觉注意力机制、用于特征融合的双模态残差网络（DMRN），以及基于对比损失的音视频距离学习网络，通过利用强音视频相关性和时间对齐，实现了最先进性能。

ABSTRACT

In this paper, we introduce a novel problem of audio-visual event localization in unconstrained videos. We define an audio-visual event as an event that is both visible and audible in a video segment. We collect an Audio-Visual Event(AVE) dataset to systemically investigate three temporal localization tasks: supervised and weakly-supervised audio-visual event localization, and cross-modality localization. We develop an audio-guided visual attention mechanism to explore audio-visual correlations, propose a dual multimodal residual network (DMRN) to fuse information over the two modalities, and introduce an audio-visual distance learning network to handle the cross-modality localization. Our experiments support the following findings: joint modeling of auditory and visual modalities outperforms independent modeling, the learned attention can capture semantics of sounding objects, temporal alignment is important for audio-visual fusion, the proposed DMRN is effective in fusing audio-visual features, and strong correlations between the two modalities enable cross-modality localization.

研究动机与目标

研究非受限视频中事件同时可见且可听时的音视频联合建模，以实现时间定位。
探究如何有效融合音频与视觉模态以提升定位精度。
探索在弱监督和零样本设置下，基于音频引导的视觉注意力机制与跨模态定位的优势。
基于新收集的、大规模的4,143个非受限视频数据集，建立音视频事件定位的基准。

提出的方法

提出一种基于音频的视觉注意力机制，可自适应地突出显示与发声物体对应的视觉区域，提升特征的相关性。
引入一种双模态残差网络（DMRN），通过残差学习融合音频与视觉特征，增强表征学习能力。
采用基于对比损失的音视频距离学习网络，将音频与视觉特征映射到共享子空间，以实现跨模态匹配。
使用C3D网络提取时空视觉特征，并采用预训练的VGG类模型对音频谱图进行嵌入，通过全局平均池化获得序列级表征。
将多实例学习（MIL）与池化层结合，以处理仅提供视频级别标签的弱监督定位任务。
采用对数梅尔谱图块和预训练音频模型最后一层全连接层输出的128维音频特征，以获得鲁棒的音频表征。

实验结果

研究问题

RQ1联合建模听觉与视觉模态是否在音视频事件定位中优于独立建模？
RQ2在噪声或弱监督训练条件下，性能如何退化？
RQ3能否通过注意力机制，使一个模态（如音频）的知识提升对另一模态（如视觉）的建模效果？
RQ4在时间定位任务中，音频与视觉特征融合的最有效方式是什么？
RQ5我们能否利用学习到的表征实现跨模态定位——即从音频定位视觉事件，或从视觉事件定位音频？

主要发现

联合建模音频与视觉模态显著优于独立建模，在使用A′+V融合的监督任务中达到70.2%的准确率。
基于音频的视觉注意力机制成功定位了包含发声物体的语义区域，并能区分音视频无关的视频。
时间对齐对有效音视频融合至关重要，因特征错位会显著降低性能。
所提出的双模态残差网络（DMRN）在所有测试方法中实现了最佳融合性能，证明其在多模态学习中的有效性。
音频与视觉模态之间的强相关性使得跨模态定位成为可能，这通过音视频距离学习网络的成功得到验证。
音频特征与空间视觉特征（V_s）在AVE数据集上的表现优于基于C3D的时空特征，表明对于此任务，语义内容比运动建模更为关键。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。