QUICK REVIEW

[论文解读] A Multi-component CNN-RNN Approach for Dimensional Emotion Recognition in-the-wild

Dimitrios Kollias, Stefanos Zafeiriou|arXiv (Cornell University)|May 3, 2018

Emotion and Mood Recognition参考文献 20被引用 27

一句话总结

本文提出了一种用于野外环境下的连续维度情感识别的多组件CNN-RNN架构，利用OMG-Emotion和Aff-Wild数据集的视觉数据。通过结合VGG-16与ResNet-50主干网络、堆叠GRU以及集成融合策略，该方法实现了最先进性能，在OMG-Emotion验证集上，愉悦度的CCC达到0.496，唤醒度的CCC达到0.311（经后处理后），显著优于基线模型。

ABSTRACT

This paper presents our approach to the One-Minute Gradual-Emotion Recognition (OMG-Emotion) Challenge, focusing on dimensional emotion recognition through visual analysis of the provided emotion videos. The approach is based on a Convolutional and Recurrent (CNN-RNN) deep neural architecture we have developed for the relevant large AffWild Emotion Database. We extended and adapted this architecture, by letting a combination of multiple features generated in the CNN component be explored by RNN subnets. Our target has been to obtain best performance on the OMG-Emotion visual validation data set, while learning the respective visual training data set. Extended experimentation has led to best architectures for the estimation of the values of the valence and arousal emotion dimensions over these data sets.

研究动机与目标

开发一种仅使用野外视频视觉数据的深度学习架构，用于连续维度情感识别（愉悦度与唤醒度）。
通过扩展并适配原本在Aff-Wild数据库上训练的CNN-RNN模型，提升在OMG-Emotion挑战赛上的表现。
探索多组件特征融合与集成学习策略，以增强对自发性面部表情的泛化能力与鲁棒性。
通过大量实验优化超参数，包括网络深度、全连接层、Dropout率与初始学习率，以在验证集上实现最大性能。
评估后处理技术在优化愉悦度与唤醒度回归输出方面的有效性。

提出的方法

采用多组件CNN-RNN架构，其中来自CNN组件（VGG-16或ResNet-50）的多个特征由独立的RNN子网络（GRUs）处理，以建模面部序列中的时序动态。
选用门控循环单元（GRUs）而非LSTM，因其性能更优且收敛更快，两层GRU架构被证明为最优。
在全连接层之间使用0.5的Dropout率，在GRU层之间使用0.2的Dropout率，以防止过拟合。
通过融合多个模型的预测结果实现集成学习，包括使用VGG-16与ResNet-50变体的模型，且在输出前可选择是否加入中间全连接层。
通过大量实验优化超参数，包括学习率（0.001）、批量大小（80）以及神经元数量（第一层全连接层为4096，第二层为2048）。
应用后处理技术以优化原始回归输出，提升验证集上的相关系数。

实验结果

研究问题

RQ1多组件CNN-RNN架构是否能有效建模非受限、野外环境下的连续维度情感识别中的面部时序动态？
RQ2在OMG-Emotion数据集上，选择不同的CNN主干网络（VGG-16与ResNet-50）对愉悦度与唤醒度估计性能有何影响？
RQ3如何配置RNN深度、全连接层与Dropout率，才能在验证集上实现最佳性能？
RQ4多模型CNN-RNN的集成融合在多大程度上能提升泛化能力与性能，相较于单一模型？
RQ5后处理技术在优化愉悦度与唤醒度维度的回归输出方面有多有效？

主要发现

表现最佳的模型为基于VGG-16的CNN-3RNN（最后卷积层特征提取），其在后处理前的验证集上，愉悦度CCC为0.456，唤醒度CCC为0.246。
经后处理后，最佳集成模型（VGG-16-FC-RNN + ResNet-50-RNN + 输出层）在验证集上达到0.4845的愉悦度CCC与0.2886的唤醒度CCC，相较于基线模型，愉悦度相对提升7.7%，唤醒度相对提升3.5%。
基于VGG-16的模型优于基于ResNet-50的模型，其中最佳VGG-16模型（CNN-3RNN-last-conv）在愉悦度上达到0.456 CCC，唤醒度上达到0.246 CCC。
使用GRUs而非LSTM显著提升了性能，所有配置下GRU模型均表现出一致的性能提升。
融合不同主干网络（VGG-16与ResNet-50）的模型实现了最高性能，证明了在回归任务中模型多样性带来的优势。
后处理技术显著提升了模型输出质量，表明原始回归预测结果可通过进一步优化提升与真实愉悦度与唤醒度值的相关性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。