QUICK REVIEW

[论文解读] DeXpression: Deep Convolutional Neural Network for Expression Recognition

P. Burkert, Felix Trier|arXiv (Cornell University)|Sep 17, 2015

Emotion and Mood Recognition参考文献 15被引用 107

一句话总结

DeXpression 提出了一种用于自动面部表情识别的新型深度卷积神经网络（CNN）架构，在 Extended Cohn-Kanade（CK+）数据集上实现了 99.6% 的准确率，在 MMI 数据集上实现了 98.63% 的准确率，通过端到端特征学习实现，无需手工设计特征。该模型采用自定义特征提取模块（FeatEx），结合多尺寸卷积层、ReLU 激活函数和最大池化层，直接从原始图像中学习分层的面部表征。

ABSTRACT

We propose a convolutional neural network (CNN) architecture for facial expression recognition. The proposed architecture is independent of any hand-crafted feature extraction and performs better than the earlier proposed convolutional neural network based approaches. We visualize the automatically extracted features which have been learned by the network in order to provide a better understanding. The standard datasets, i.e. Extended Cohn-Kanade (CKP) and MMI Facial Expression Databse are used for the quantitative evaluation. On the CKP set the current state of the art approach, using CNNs, achieves an accuracy of 99.2%. For the MMI dataset, currently the best accuracy for emotion recognition is 93.33%. The proposed architecture achieves 99.6% for CKP and 98.63% for MMI, therefore performing better than the state of the art using CNNs. Automatic facial expression recognition has a broad spectrum of applications such as human-computer interaction and safety systems. This is due to the fact that non-verbal cues are important forms of communication and play a pivotal role in interpersonal communication. The performance of the proposed architecture endorses the efficacy and reliable usage of the proposed work for real world applications.

研究动机与目标

开发一种完全自动化的、端到端的深度学习框架用于面部表情识别，以消除对手工设计特征的依赖。
通过引入一种新颖且高效的网络架构，改进现有的基于CNN的表情识别方法，实现更优的泛化能力和更高的准确率。
通过可视化自动学习的特征，提升可解释性，以更好地理解网络的决策过程。
在标准基准数据集（CK+ 和 MMI）上评估模型，以证明其在表情识别任务中的最先进性能。

提出的方法

所提出的架构 DeXpression 围绕一个名为 FeatEx 的自定义特征提取模块构建，该模块集成了多种不同滤波器尺寸的卷积层，以捕捉多尺度的面部特征。
FeatEx 集成了 ReLU 激活函数和最大池化层，以增强学习表征中的非线性特性和空间不变性。
网络在原始输入图像上使用随机梯度下降进行训练，实现无需预处理或人工特征工程的端到端学习。
采用 10 折交叉验证策略，在 CK+ 和 MMI 数据集上评估性能，以确保模型的鲁棒性和泛化能力。
该模型受 GoogLeNet 启发，但进行了简化，以降低计算成本，同时保持高准确率。
通过特征可视化来解释网络内部学习到的表征，尤其关注具有判别性的面部区域。

实验结果

研究问题

RQ1是否能够通过深度 CNN 架构在不依赖手工设计特征的情况下实现面部表情识别的最先进性能？
RQ2所提出的 FeatEx 模块在学习用于情绪分类的判别性面部特征方面，与标准 CNN 架构相比表现如何？
RQ3在表情识别任务中，端到端训练原始图像与预处理图像或基于关键点的输入相比，其影响是什么？
RQ4错误分类是如何发生的？在模糊或早期情绪阶段的图像帧中，是否存在特定的模式？
RQ5所学习的特征在多大程度上可以被解释，以理解网络的决策逻辑？

主要发现

DeXpression 在 Extended Cohn-Kanade（CK+）数据集上实现了 10 折交叉验证准确率 99.6%，超越了此前最先进水平的 99.2%。
在 MMI 面部表情数据库上，DeXpression 达到了 98.63% 的准确率，优于此前最佳结果 93.33%。
错误分类主要发生在情绪序列的早期帧中，此时面部表情尚未完全呈现，常表现为中性或过渡状态。
在 CK+ 上，Surprise 和 Disgust 之间的混淆率最高（0.045%）；在 MMI 上，Fear 和 Surprise 之间的混淆率最高（0.0159%），两者均因相似的面部构型（如睁大眼睛和嘴巴）所致。
该模型对中性或非情绪性帧表现出鲁棒性，大多数错误源于模糊或低强度的情绪表达，而非网络架构本身。
特征可视化结果表明，网络能够学习聚焦于关键面部区域（如眼睛、眉毛和嘴巴），与已知的面部动作单元中的情绪线索一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。