QUICK REVIEW

[论文解读] EmoNets: Multimodal deep learning approaches for emotion recognition in video

Samira Ebrahimi Kahou, Xavier Bouthillier|arXiv (Cornell University)|Mar 5, 2015

Emotion and Mood Recognition参考文献 29被引用 41

一句话总结

该论文提出EmoNets，一种用于视频情感识别的多模态深度学习框架，采用四种专用模型——卷积神经网络（CNN）用于面部特征，深度置信网络（DBN）用于音频，基于词袋的嘴部模型用于局部视觉线索，关系自编码器用于时空动态建模。通过使用随机搜索优化的加权平均方法融合这些模态特定的预测结果，该方法在2014年AFEW数据集上取得了47.67%的测试准确率，优于单一模型，并在2013年EmotiW挑战赛中胜出。

ABSTRACT

The task of the emotion recognition in the wild (EmotiW) Challenge is to assign one of seven emotions to short video clips extracted from Hollywood style movies. The videos depict acted-out emotions under realistic conditions with a large degree of variation in attributes such as pose and illumination, making it worthwhile to explore approaches which consider combinations of features from multiple modalities for label assignment. In this paper we present our approach to learning several specialist models using deep learning techniques, each focusing on one modality. Among these are a convolutional neural network, focusing on capturing visual information in detected faces, a deep belief net focusing on the representation of the audio stream, a K-Means based "bag-of-mouths" model, which extracts visual features around the mouth region and a relational autoencoder, which addresses spatio-temporal aspects of videos. We explore multiple methods for the combination of cues from these modalities into one common classifier. This achieves a considerably greater accuracy than predictions from our strongest single-modality classifier. Our method was the winning submission in the 2013 EmotiW challenge and achieved a test set accuracy of 47.67% on the 2014 dataset.

研究动机与目标

在姿态、光照和表情高度多变的真实世界条件下，提升视频中的情感识别性能。
通过在大规模外部数据上进行深度学习，缓解AFEW数据集中每类情感标注数据有限的挑战。
开发一种稳健的方法，用于融合来自多个模态专用深度学习模型（视觉、音频、时空、局部面部特征）的预测结果。
通过使用简单且受约束的聚合技术（而非复杂的集成超参数调优），避免单个模型过拟合。
通过有效融合多模态表征，在2014年EmotiW挑战赛中实现最先进性能。

提出的方法

在来自Google图像搜索的外部面部图像数据上训练深度卷积神经网络（ConvNet），以从检测到的面部中提取视觉特征，避免对竞赛数据的过拟合。
采用深度置信网络（DBN）从音频流中学习分层音频表征，捕捉语调和语言线索。
实现基于K-Means的“词袋-嘴部”模型，从嘴部区域提取并编码视觉特征，聚焦于动态面部运动。
使用关系自编码器对视频帧之间的时空依赖关系进行建模，学习面部表情的时序动态。
通过在验证集上使用随机搜索优化的加权平均策略，融合所有四个模型的预测结果，以避免过拟合。
在加权平均的模型输出上应用最终分类器（SVM或MLP），但发现仅使用简单加权平均的效果优于复杂的聚合方法。

实验结果

研究问题

RQ1在外部数据上预训练的多模态深度学习模型，是否能提升在低资源视频情感识别任务中的性能？
RQ2与复杂的集成学习策略相比，对多样化模态专用深度模型预测结果进行简单加权平均的有效性如何？
RQ3单个模型的过拟合在多大程度上会阻碍传统集成方法？更简单的聚合技术是否能缓解此问题？
RQ4在大规模、高质量的面部图像数据上进行预训练，是否能提升在小规模、噪声较大的视频数据集（光照和姿态变化大）上微调时的泛化能力？
RQ5在情感识别任务中，受约束的、低复杂度的聚合方法是否能优于传统超参数调优的集成模型？

主要发现

表现最佳的单一模型——在外部面部数据上预训练的ConvNet——在2013年测试集上达到35.58%的准确率，优于仅在竞赛数据上训练的模型。
通过在加权平均策略上使用随机搜索优化，融合多个模态专用模型，使2013年数据集上的测试准确率提升至41.03%，超过第二名竞争对手（35.89%）。
在2014年AFEW数据集上，最终模型实现了47.67%的测试准确率，位列所有提交结果中的第一名，尽管挑战赛冠军使用另一种深度学习融合方法达到了50.37%的准确率。
对350个独立搜索得到的加权平均结果进行袋装（bagging）后，准确率反而下降至45.45%，表明若未谨慎约束，复杂模型的集成平均可能降低性能。
对模型输出进行SVM和MLP的传统超参数调优未能提升验证性能，尤其在如“词袋-嘴部”和活动识别等模型中，过拟合问题显著。
研究结论认为，当单个专家模型存在过拟合时，简单且低复杂度的聚合方法（如加权平均）比复杂的集成模型更有效，提示多模态情感识别策略应发生转变。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。