Skip to main content
QUICK REVIEW

[论文解读] A Deep Learning Perspective on the Origin of Facial Expressions

Ran Breuer, Ron Kimmel|arXiv (Cornell University)|May 4, 2017
Face recognition and analysis参考文献 48被引用 95
一句话总结

该论文使用基于CNN的面部表情识别(FER)并结合可视化,将学习到的特征与 Ekman 的 FACS 关联,展示跨数据集/任务的可迁移性,并在使用 LSTM 的微表情检测方面达到最先进的结果。

ABSTRACT

Facial expressions play a significant role in human communication and behavior. Psychologists have long studied the relationship between facial expressions and emotions. Paul Ekman et al., devised the Facial Action Coding System (FACS) to taxonomize human facial expressions and model their behavior. The ability to recognize facial expressions automatically, enables novel applications in fields like human-computer interaction, social gaming, and psychological research. There has been a tremendously active research in this field, with several recent papers utilizing convolutional neural networks (CNN) for feature extraction and inference. In this paper, we employ CNN understanding methods to study the relation between the features these computational networks are using, the FACS and Action Units (AU). We verify our findings on the Extended Cohn-Kanade (CK+), NovaEmotions and FER2013 datasets. We apply these models to various tasks and tests using transfer learning, including cross-dataset validation and cross-task performance. Finally, we exploit the nature of the FER based CNN models for the detection of micro-expressions and achieve state-of-the-art accuracy using a simple long-short-term-memory (LSTM) recurrent neural network (RNN).

研究动机与目标

  • 自动化面部表情识别及其与 Ekman 的 FACS(AU 框架)的关系的动机。
  • 研究 CNN 在 FER 中学到的内容,以及这些特征与 AU 的关系。
  • 通过迁移学习展示 CNN 推断特征在跨数据集和任务上的泛化性。
  • 将 FER 派生的特征应用于微表情检测,并评估性能。

提出的方法

  • 实现经典的3块 CNN(3 个卷积块,5×5 滤波器,ReLU,2×2 池化,64/128/256 通道)后接一个 512 个神经元的全连接层和输出层(情感分成 8 类)。
  • 使用 dropout(在最后一个卷积层后 0.25,在全连接层之间 0.5)和 ADAM(lr=1e-3,衰减=1e-5)进行训练。
  • 使用数据增强(翻转、仿射变换)以改善泛化能力。
  • 通过反卷积/导引反向传播可视化学习到的滤波器,将激活与面部区域以及 Ekman 的 AU 联系起来。
  • 通过迁移学习评估跨数据集和跨任务的泛化能力(冻结卷积层,仅重新训练输出层)。
  • 在 CK+, NovaEmotions, FER2013 上进行评估;并与先前的 FER 方法进行比较,显示更高的准确性。

实验结果

研究问题

  • RQ1CNN 训练的情感识别是否会发展出与 Ekman 的动作单元对应的滤波器?
  • RQ2在一个 FER 数据集上学习的 CNN 特征是否可以泛化到其他数据集和相关任务(AU 检测、情感分类)?
  • RQ3当结合时间模型(LSTM)时,基于 FER 的 CNN 特征是否可以提升微表情检测?
  • RQ4从 CNN 特征中达到的 AU 级可解释性和稀疏性达到什么水平?

主要发现

  • CNN 可视化揭示的滤波器与若干 Ekman AU(如 AU4、AU5、AU9、AU10、AU12、AU25)相关。
  • 在 CK+ 情感分类上,作者的模型达到 98.62% ± 0.11% 的准确率,优于若干先前方法。
  • 在 FER2013 上,模型达到 72.1% 的准确率(与强基线相当),跨数据集测试显示情感检测性能具有显著迁移性(CK+ 到 FER2013:69.3%;FER2013 到 CK+:92.0%)。
  • 通过稀疏 CNN 特征进行 AU 检测的二元 AU 存在性达到 97.54% 的准确率,强度预测的均方误差为 0.2045,达到 96.1。
  • 在 CASME II 上使用 CNN+LSTM 的微表情检测准确率为 59.47%,超过基线的 LBP-TOP。
  • 跨任务迁移性表明 CNN 学到的类似 FACS 的特征在 FER 相关任务和数据集之间普遍具备良好的泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。