[论文解读] Audio-Visual Event Localization in Unconstrained Videos
本文提出了一种用于非受限视频的新型音视频事件定位框架,引入了一个新数据集和三项任务:监督学习、弱监督学习以及跨模态定位。该方法采用基于音频的视觉注意力机制、用于特征融合的双模态残差网络(DMRN),以及基于对比损失的音视频距离学习网络,通过利用强音视频相关性和时间对齐,实现了最先进性能。
In this paper, we introduce a novel problem of audio-visual event localization in unconstrained videos. We define an audio-visual event as an event that is both visible and audible in a video segment. We collect an Audio-Visual Event(AVE) dataset to systemically investigate three temporal localization tasks: supervised and weakly-supervised audio-visual event localization, and cross-modality localization. We develop an audio-guided visual attention mechanism to explore audio-visual correlations, propose a dual multimodal residual network (DMRN) to fuse information over the two modalities, and introduce an audio-visual distance learning network to handle the cross-modality localization. Our experiments support the following findings: joint modeling of auditory and visual modalities outperforms independent modeling, the learned attention can capture semantics of sounding objects, temporal alignment is important for audio-visual fusion, the proposed DMRN is effective in fusing audio-visual features, and strong correlations between the two modalities enable cross-modality localization.
研究动机与目标
- 研究非受限视频中事件同时可见且可听时的音视频联合建模,以实现时间定位。
- 探究如何有效融合音频与视觉模态以提升定位精度。
- 探索在弱监督和零样本设置下,基于音频引导的视觉注意力机制与跨模态定位的优势。
- 基于新收集的、大规模的4,143个非受限视频数据集,建立音视频事件定位的基准。
提出的方法
- 提出一种基于音频的视觉注意力机制,可自适应地突出显示与发声物体对应的视觉区域,提升特征的相关性。
- 引入一种双模态残差网络(DMRN),通过残差学习融合音频与视觉特征,增强表征学习能力。
- 采用基于对比损失的音视频距离学习网络,将音频与视觉特征映射到共享子空间,以实现跨模态匹配。
- 使用C3D网络提取时空视觉特征,并采用预训练的VGG类模型对音频谱图进行嵌入,通过全局平均池化获得序列级表征。
- 将多实例学习(MIL)与池化层结合,以处理仅提供视频级别标签的弱监督定位任务。
- 采用对数梅尔谱图块和预训练音频模型最后一层全连接层输出的128维音频特征,以获得鲁棒的音频表征。
实验结果
研究问题
- RQ1联合建模听觉与视觉模态是否在音视频事件定位中优于独立建模?
- RQ2在噪声或弱监督训练条件下,性能如何退化?
- RQ3能否通过注意力机制,使一个模态(如音频)的知识提升对另一模态(如视觉)的建模效果?
- RQ4在时间定位任务中,音频与视觉特征融合的最有效方式是什么?
- RQ5我们能否利用学习到的表征实现跨模态定位——即从音频定位视觉事件,或从视觉事件定位音频?
主要发现
- 联合建模音频与视觉模态显著优于独立建模,在使用A′+V融合的监督任务中达到70.2%的准确率。
- 基于音频的视觉注意力机制成功定位了包含发声物体的语义区域,并能区分音视频无关的视频。
- 时间对齐对有效音视频融合至关重要,因特征错位会显著降低性能。
- 所提出的双模态残差网络(DMRN)在所有测试方法中实现了最佳融合性能,证明其在多模态学习中的有效性。
- 音频与视觉模态之间的强相关性使得跨模态定位成为可能,这通过音视频距离学习网络的成功得到验证。
- 音频特征与空间视觉特征(V_s)在AVE数据集上的表现优于基于C3D的时空特征,表明对于此任务,语义内容比运动建模更为关键。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。