QUICK REVIEW

[论文解读] A Deep Network for Arousal-Valence Emotion Prediction with Acoustic-Visual Cues

Songyou Peng, Le Zhang|arXiv (Cornell University)|May 2, 2018

Speech and Audio Processing参考文献 9被引用 23

一句话总结

该论文提出了一种基于音频和视觉线索的深度学习框架，用于在OMG-Emotion数据集上预测唤醒度-效价情绪。该框架采用基于VGG-16的音频网络（ANet）和基于SphereFace的视频网络（VNet），结合稀疏帧采样与双向LSTM，通过联合训练实现最先进性能，其一致性相关系数（CCC）得分分别为0.3036（唤醒度）和0.4796（效价）。

ABSTRACT

In this paper, we comprehensively describe the methodology of our submissions to the One-Minute Gradual-Emotion Behavior Challenge 2018.

研究动机与目标

开发一种深度学习模型，能够有效从音视频输入中预测连续的唤醒度与效价情绪维度。
通过设计一种稀疏帧采样策略，解决可变长度视频片段带来的挑战，同时保留时间动态特性。
通过多模态融合方法，联合训练音频与视频流，提升情绪预测性能。
证明在未使用大规模情绪数据集进行外部预训练的前提下，利用预处理的短时傅里叶变换谱图与深度人脸嵌入表示的有效性。

提出的方法

将原始音频转换为16kHz单声道WAV文件，并使用25ms汉明窗与10ms步长计算257×300×2的STFT图谱，保留实部与虚部分量。
使用MTCNN从视频帧中提取并对齐人脸，随后将图像调整为112×96×3的尺寸，输入SphereFace主干网络。
将修改后的VGG-16作为ANet，第一层调整为适应2通道STFT输入，随后接两个全连接层并使用Dropout正则化。
在视频建模方面，采用基于分段的随机采样方法，在视频片段中稀疏采样16帧，通过SphereFace提取512维特征，并通过双向LSTM进行处理。
在平均ANet倒数第二层输出（来自4个采样的STFT图谱）后，通过拼接方式融合音频与视频特征，随后接一个使用Tanh激活函数的全连接层。
使用CCC损失联合训练模型，并采用衰减的初始初始学习率0.001进行微调，当梯度范数超过20时进行梯度裁剪。

实验结果

研究问题

RQ1在未进行外部预训练的前提下，深度神经网络能否有效从原始音频与视频输入中预测连续的唤醒度与效价？
RQ2与单流模型相比，音频与视频流的联合训练在性能上有哪些提升？
RQ3稀疏帧采样与双向LSTM对建模可变长度视频片段中的时间动态特性有何影响？
RQ4与手工设计的特征（如OpenSmile）相比，基于STFT的音频表示在唤醒度-效价回归任务中的表现如何？
RQ5多模态融合在多大程度上提升了情绪预测性能，超越单模态基线？

主要发现

所提出的ANet在性能上优于在RAVDESS上预训练的基线方法（唤醒度：0.18 vs. 0.08，效价：0.256 vs. 0.10）以及基于OpenSmile的基线方法（总CCC：0.36 vs. 0.18）。
仅使用VNet的模型达到总CCC为0.7486，超过基线的0.35，表明其在仅视频的情绪回归任务中表现强劲。
音频与视频流的联合训练使总CCC达到0.7832，显著优于仅视频模型（0.7486）与仅音频模型（0.4439）。
联合模型在唤醒度上取得0.3036的CCC，在效价上取得0.4796的CCC，优于所有单模态模型及先前基线。
该模型在未使用大规模情绪数据集预训练的情况下实现上述结果，仅依赖ImageNet的迁移学习与自监督人脸特征。
在联合学习过程中使用CCC损失，相比单模态训练中使用的MSE损失，能更好地与人工标注的情绪得分对齐。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。