Skip to main content
QUICK REVIEW

[论文解读] Facial Expression Recognition using Convolutional Neural Networks: State of the Art

Christopher Pramerdorfer, Martin Kampel|arXiv (Cornell University)|Dec 9, 2016
Face recognition and analysis参考文献 18被引用 213
一句话总结

本文评述基于 CNN 的面部表情识别(FER)方法,识别瓶颈,并显示一种现代深度 CNN 的集成在 FER2013 上达到最先进性能(75.2%),无需额外数据或人脸对齐。

ABSTRACT

The ability to recognize facial expressions automatically enables novel applications in human-computer interaction and other areas. Consequently, there has been active research in this field, with several recent works utilizing Convolutional Neural Networks (CNNs) for feature extraction and inference. These works differ significantly in terms of CNN architectures and other factors. Based on the reported results alone, the performance impact of these factors is unclear. In this paper, we review the state of the art in image-based facial expression recognition using CNNs and highlight algorithmic differences and their performance impact. On this basis, we identify existing bottlenecks and consequently directions for advancing this research field. Furthermore, we demonstrate that overcoming one of these bottlenecks - the comparatively basic architectures of the CNNs utilized in this field - leads to a substantial performance increase. By forming an ensemble of modern deep CNNs, we obtain a FER2013 test accuracy of 75.2%, outperforming previous works without requiring auxiliary training data or face registration.

研究动机与目标

  • 评估在自然条件下,CNN 架构和预处理选择如何影响 FER 性能。
  • 确定制 FER 性能的瓶颈并提出克服它们的方向。
  • 在一致设置下对比 CNN 架构,以分离架构影响。
  • 证明通过集成方法,现代深度 CNN 能超越浅层 FER 模型。

提出的方法

  • 评述六种基于 CNN 的 FER 方法及其预处理、架构,以及训练/推理协议。
  • 在统一协议下,使用 FER2013 数据和标准光照校正对架构进行经验性重实现。
  • 在每个卷积层和全连接层之后引入批归一化,在第一层全连接层之后加入 dropout,以提高鲁棒性。
  • 使用可比的增强(水平翻转、随机裁剪)并对每种架构进行网格搜索的 dropout。
  • 评估十裁剪测试,并使用 MLP 后端比较不同架构学习的表征。

实验结果

研究问题

  • RQ1在现实数据上,哪种预处理、架构和训练策略最影响 FER 性能?
  • RQ2在一致条件下,较深的现代 CNN 是否比浅层的 FER 专用架构表现更好?
  • RQ3通过深度 CNN 的集成是否能够在不依赖辅助数据或对齐的情况下超越现有 FER 方法?
  • RQ4CNN 基于 FER 的主要瓶颈是什么,如何缓解数据与数据集偏差?

主要发现

  • FER2013 由 35,887 张灰度 48x48 面部裁剪组成,训练/验证/测试分割为 28,709、3,589 和 3,589。
  • 当在相同协议下评估时,浅层 CNN 有时会超越更深的模型,表明架构深度并非 FER 性能的唯一决定因素。
  • 使用现代深度 CNN,最多 8 个模型的集成在没有辅助数据或人脸对齐的情况下达到 75.2% FER2013 测试准确率。
  • 数据增强和集成投票显著提升泛化;对齐可以带来收益,但并非强结果的强制条件。
  • 深层架构(VGG、Inception、ResNet)在仔细正则化下超越传统 FER 方法,在不使用数据集特定技巧的情况下取得具有竞争力的结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。