[论文解读] Facial Expression Recognition using Facial Landmark Detection and Feature Extraction via Neural Networks
本文提出了一种基于面部关键点检测与基于欧几里得距离的特征向量输入多层感知机(MLP)神经网络的面部表情识别系统。通过利用眼睛、眉毛、鼻子和嘴唇的定位点,该系统在幸福和惊讶情绪上实现了超过95%的高准确率,结果表明其在表达性情绪上表现强劲,并揭示了面部表情主观性方面的见解。
The proposed framework in this paper has the primary objective of classifying the facial expression shown by a person. These classifiable expressions can be any one of the six universal emotions along with the neutral emotion. After the initial facial localization is performed, facial landmark detection and feature extraction are applied where in the landmarks are determined to be the fiducial features: the eyebrows, eyes, nose and lips. This is primarily done using state-of-the-art facial landmark detection algorithms as well as traditional edge and corner point detection methods using Sobel filters and Shi Tomasi corner point detection methods respectively. This leads to generation of input feature vectors being formulated using Euclidean distances and trained into a Multi-Layer Perceptron (MLP) neural network in order to classify the expression being displayed. The results achieved have further dealt with higher uniformity in certain emotions and the inherently subjective nature of expression.
研究动机与目标
- 开发一种适用于移动应用的低复杂度、实时面部表情识别(FER)系统。
- 通过分析检测到的关键点的几何特征,解决人类面部表情固有的主观性与可变性问题。
- 通过从关键点间距离导出的手工设计特征向量,提高分类准确率。
- 利用KDEF数据集评估个体表达可变性对FER性能的影响。
提出的方法
- 使用包含70名受试者、共4900张图像的卡罗林斯卡情绪化面部(KDEF)数据集,涵盖七种情绪:六种基本情绪与中性情绪。
- 结合最先进的面部关键点检测算法与传统的Sobel边缘检测及Shi-Tomasi角点检测,实现鲁棒的定位点提取。
- 通过关键面部关键点之间的欧几里得距离(如两眼之间、嘴角之间、眉毛之间)生成输入特征向量,构建面部表情的几何表征。
- 使用Adam优化器(初始学习率0.005)、Dropout(0.3)和Softmax输出层,训练多层感知机(MLP)神经网络进行多分类。
- 采用90:10的训练-测试数据划分,并使用交叉熵损失函数结合L2正则化以提升泛化能力。
- 分析误报率,并对特征向量(V7、V10–V12)进行基于中位数的分组处理,以探索表情强度与个体可变性。
实验结果
研究问题
- RQ1从面部关键点导出的几何特征在低复杂度框架中如何提升面部表情分类准确率?
- RQ2幸福与惊讶等情绪在表达上相比愤怒、厌恶、恐惧与悲伤是否表现出更高的统一性?
- RQ3面部表情强度的个体差异如何影响分类性能与误报率?
- RQ4基于关键点间距离的特征向量是否能有效捕捉表情强度并提升模型鲁棒性?
主要发现
- 系统在幸福情绪上达到98.2%的真正例率,在惊讶情绪上达到95.8%,表明这些情绪的表达模式具有高度一致性。
- 愤怒、厌恶、恐惧与悲伤等情绪的准确率中等(84–86%),且存在显著的类别间重叠,反映出共有的面部构型特征。
- 中性表情的分类准确率达到90.1%,表明对低强度表情的识别性能出色。
- 误报率最低的是幸福(1.8%)与惊讶(4.2%),而愤怒与厌恶的误报率最高(分别为14.4%与15.1%)。
- 对代表关键点间距离的特征向量V7、V10、V11与V12的分析表明,表情强度(如微笑宽度)与分类一致性相关,尤其在更具表现力的个体中更为显著。
- 按中位数表达强度对数据进行分割后,愤怒与恐惧的性能得到提升,表明个体表达风格显著影响识别结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。