QUICK REVIEW

[论文解读] Multimodal Emotion Recognition Using Multimodal Deep Learning

Wei Liu, Wei‐Long Zheng|arXiv (Cornell University)|Feb 26, 2016

Emotion and Mood Recognition参考文献 11被引用 50

一句话总结

本文提出了一种基于深度自编码器（DAE）和双模态深度自编码器（BDAE）的多模态深度学习框架，用于提升从生理信号（特别是EEG和眼动数据）中进行情感识别的性能。在SEED数据集上实现了91.01%的最先进准确率，在跨模态学习中达到66.34%的准确率，表明模态间共享表征显著提升了情感建模的性能。

ABSTRACT

To enhance the performance of affective models and reduce the cost of acquiring physiological signals for real-world applications, we adopt multimodal deep learning approach to construct affective models from multiple physiological signals. For unimodal enhancement task, we indicate that the best recognition accuracy of 82.11% on SEED dataset is achieved with shared representations generated by Deep AutoEncoder (DAE) model. For multimodal facilitation tasks, we demonstrate that the Bimodal Deep AutoEncoder (BDAE) achieves the mean accuracies of 91.01% and 83.25% on SEED and DEAP datasets, respectively, which are much superior to the state-of-the-art approaches. For cross-modal learning task, our experimental results demonstrate that the mean accuracy of 66.34% is achieved on SEED dataset through shared representations generated by EEG-based DAE as training samples and shared representations generated by eye-based DAE as testing sample, and vice versa.

研究动机与目标

通过使用深度学习融合多种生理信号，提升情感建模性能。
通过多模态预训练中获得的共享表征，减少对昂贵EEG数据的依赖，实现单模态性能增强。
探索EEG与眼动特征之间的跨模态迁移学习在情感识别中的应用。
验证共享表征在捕捉模态间共性情感模式方面的有效性。
为实际人机交互（HMI）应用提供一种稳健且可扩展的框架。

提出的方法

采用单模态深度自编码器（DAE）从单一模态生理信号（EEG或眼动）中学习共享表征。
提出双模态深度自编码器（BDAE），联合学习成对EEG与眼动数据的共享表征。
将共享表征作为高级特征用于下游情感分类任务，替代原始或人工设计的特征。
通过共享表征实现特征级融合，避免使用复杂的融合策略（如早期融合或晚期融合）。
在两个公开数据集上进行模型训练：SEED（基于EEG）和DEAP（多模态生理信号）。
通过准确率、标准差和混淆矩阵评估性能，以衡量可靠性与类别间区分能力。

实验结果

研究问题

RQ1通过单模态DAE学习到的共享表征是否能提升情感识别准确率，相比直接使用原始特征？
RQ2在EEG与眼动数据上通过BDAE进行联合学习，是否能获得比单模态或传统融合方法更高的分类准确率？
RQ3能否有效利用某一模态（如EEG）的共享表征来识别另一模态（如眼动）中的情感？
RQ4模型在跨模态学习中的表现如何？是否显著优于随机基线？
RQ5混淆矩阵如何反映特定情感类别的识别难度？这对神经模式有何启示？

主要发现

单模态DAE在SEED数据集上达到82.11%的准确率，优于直接使用原始EEG特征（78.51%）。
BDAE模型在SEED数据集上实现91.01%的平均准确率，在DEAP数据集上达到83.25%，优于最先进方法。
在跨模态学习中，使用基于EEG的DAE表征对眼动数据进行分类，达到66.34%的平均准确率，显著高于33.33%的随机基线。
混淆矩阵显示，负面情绪最难分类，而正面情绪识别率最高（多模态协同下正面情绪识别率达99.03%）。
使用共享表征后，实验间的标准差降低，表明模型可靠性提升。
结果表明，共享表征能够捕捉EEG与眼动模态间的高层级共性情感特征，实现有效的跨模态迁移。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。