[论文解读] Audio Visual Emotion Recognition with Temporal Alignment and Perception Attention
本文提出了一种用于音视频情感识别的深度学习框架,采用软注意力机制实现音频与视频流之间的时序对齐,并定位与感知相关的片段。通过将LSTM-RNN与情感特定的嵌入向量结合,该模型在EmotiW2015数据集上提升了识别准确率,验证了基于注意力的时序对齐与感知感知特征重加权的有效性。
This paper focuses on two key problems for audio-visual emotion recognition in the video. One is the audio and visual streams temporal alignment for feature level fusion. The other one is locating and re-weighting the perception attentions in the whole audio-visual stream for better recognition. The Long Short Term Memory Recurrent Neural Network (LSTM-RNN) is employed as the main classification architecture. Firstly, soft attention mechanism aligns the audio and visual streams. Secondly, seven emotion embedding vectors, which are corresponding to each classification emotion type, are added to locate the perception attentions. The locating and re-weighting process is also based on the soft attention mechanism. The experiment results on EmotiW2015 dataset and the qualitative analysis show the efficiency of the proposed two techniques.
研究动机与目标
- 解决视频情感识别中音频与视觉流之间的错位问题。
- 通过识别并强调多模态序列中与感知相关的片段,提升识别性能。
- 将情感特定的嵌入向量整合到注意力机制中,以更好地定位情感内容。
- 验证基于注意力的融合与时序对齐在多模态情感识别中的有效性。
提出的方法
- 采用LSTM-RNN作为核心分类架构,对音视频特征进行序列建模。
- 应用软注意力机制在时序层面对齐音频与视觉特征,实现有效融合。
- 引入七个对应于每个情感类别的情感嵌入向量,以指导感知注意力的定位。
- 再次使用软注意力机制,根据学习到的感知注意力对特征进行重加权,聚焦于相关片段。
- 在EmotiW2015数据集上端到端训练模型,联合优化对齐与注意力组件。
- 在时序对齐后融合音频与视觉特征,以增强情感分类的判别性表征。
实验结果
研究问题
- RQ1如何在多模态情感识别中实现音频与视觉流的有效时序对齐?
- RQ2感知感知注意力机制是否能通过聚焦于相关情感片段来提升识别性能?
- RQ3情感特定嵌入在多模态序列中对注意力定位的增强程度如何?
- RQ4所提出的基于注意力的融合方法是否优于情感识别任务中的标准特征拼接?
主要发现
- 所提出的基于软注意力的时序对齐显著提升了特征融合效果,通过同步音频与视觉模态的表征。
- 由情感特定嵌入引导的感知注意力增强了模型对相关情感内容的关注,提升了分类鲁棒性。
- 该模型在EmotiW2015数据集上达到了最先进性能,验证了注意力机制的有效性。
- 定性分析表明,注意力机制成功突出了音频与视觉模态中情感显著的帧。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。