Skip to main content
QUICK REVIEW

[论文解读] MViT: Mask Vision Transformer for Facial Expression Recognition in the wild.

Hanting Li, Mingzhe Sui|arXiv (Cornell University)|Jun 8, 2021
Emotion and Mood Recognition参考文献 43被引用 23
一句话总结

该论文提出MViT,一种纯基于Transformer的面部表情识别(FER)模型,用于野外环境下的应用,其特点包括:用于抑制背景和遮挡噪声的掩码生成网络(MGN),以及用于纠正错误标注的动态重标注模块。MViT在RAF-DB(88.62%)、FERPlus(89.22%)和AffectNet-7(64.57%)上达到最先进性能,在AffectNet-8上也取得61.40%的优异结果。

ABSTRACT

Facial Expression Recognition (FER) in the wild is an extremely challenging task in computer vision due to variant backgrounds, low-quality facial images, and the subjectiveness of annotators. These uncertainties make it difficult for neural networks to learn robust features on limited-scale datasets. Moreover, the networks can be easily distributed by the above factors and perform incorrect decisions. Recently, vision transformer (ViT) and data-efficient image transformers (DeiT) present their significant performance in traditional classification tasks. The self-attention mechanism makes transformers obtain a global receptive field in the first layer which dramatically enhances the feature extraction capability. In this work, we first propose a novel pure transformer-based mask vision transformer (MVT) for FER in the wild, which consists of two modules: a transformer-based mask generation network (MGN) to generate a mask that can filter out complex backgrounds and occlusion of face images, and a dynamic relabeling module to rectify incorrect labels in FER datasets in the wild. Extensive experimental results demonstrate that our MVT outperforms state-of-the-art methods on RAF-DB with 88.62%, FERPlus with 89.22%, and AffectNet-7 with 64.57%, respectively, and achieves a comparable result on AffectNet-8 with 61.40%.

研究动机与目标

  • 解决野外面部表情识别(FER)面临的挑战,包括复杂背景、图像质量低劣以及主观的人工标注问题。
  • 克服现有模型在处理噪声多、多样性高且模糊的真实世界面部数据时的局限性。
  • 开发一种纯Transformer架构,通过全局上下文建模和注意力机制增强特征学习能力。
  • 引入掩码生成网络(MGN),以过滤掉背景和遮挡等无关图像区域。
  • 提出一种动态重标注模块,利用基于注意力的不确定性估计,重新评估并纠正现有FER数据集中错误的标签,从而提升训练数据质量。

提出的方法

  • 设计一种基于Transformer的掩码生成网络(MGN),用于预测空间掩码,以抑制输入图像中的非面部区域。
  • 利用预测的掩码仅关注相关面部区域,从而减少复杂背景和遮挡带来的干扰。
  • 实现一种动态重标注模块,通过基于注意力的不确定性估计,重新评估并纠正FER数据集中错误的标签。
  • 在标准FER基准上,使用标准分类头端到端训练MViT模型,利用自注意力机制进行全局特征提取。
  • 在训练过程中应用MGN和动态重标注模块,以提升特征的鲁棒性和标签的一致性。
  • 利用视觉Transformer的全局感受野,捕捉面部区域之间的长距离依赖关系,从而增强表情判别能力。

实验结果

研究问题

  • RQ1在真实世界条件下,纯Transformer架构是否能超越卷积神经网络在面部表情识别中的表现?
  • RQ2通过学习到的掩码生成网络过滤背景和遮挡噪声,能在多大程度上提升模型性能?
  • RQ3动态重标注在纠正现有FER数据集中误标样本方面有多有效,能否提升模型的泛化能力?
  • RQ4结合掩码生成与标签校正是否能在多种不同的FER基准上带来一致的性能提升?
  • RQ5MViT框架是否能在包括RAF-DB、FERPlus、AffectNet-7和AffectNet-8在内的多个基准上实现最先进性能?

主要发现

  • MViT在RAF-DB上达到88.62%的准确率,超越了以往最先进方法。
  • 在FERPlus上,MViT取得89.22%的准确率,展现出在具有挑战性的现实世界数据集上的强大性能。
  • 在AffectNet-7上,模型达到64.57%的准确率,创下该基准的新最先进水平。
  • 在AffectNet-8上,MViT实现61.40%的准确率,尽管该数据集具有高度多样性与标注噪声,仍表现出具有竞争力的性能。
  • 消融实验证实,掩码生成网络和动态重标注模块均对性能提升有显著贡献。
  • MViT中的全局注意力机制通过捕捉面部区域之间的长距离依赖关系,实现了更优的特征学习。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。