QUICK REVIEW

[论文解读] MViT: Mask Vision Transformer for Facial Expression Recognition in the wild.

Hanting Li, Mingzhe Sui|arXiv (Cornell University)|Jun 8, 2021

Emotion and Mood Recognition参考文献 43被引用 23

一句话总结

该论文提出MViT，一种纯基于Transformer的面部表情识别（FER）模型，用于野外环境下的应用，其特点包括：用于抑制背景和遮挡噪声的掩码生成网络（MGN），以及用于纠正错误标注的动态重标注模块。MViT在RAF-DB（88.62%）、FERPlus（89.22%）和AffectNet-7（64.57%）上达到最先进性能，在AffectNet-8上也取得61.40%的优异结果。

ABSTRACT

Facial Expression Recognition (FER) in the wild is an extremely challenging task in computer vision due to variant backgrounds, low-quality facial images, and the subjectiveness of annotators. These uncertainties make it difficult for neural networks to learn robust features on limited-scale datasets. Moreover, the networks can be easily distributed by the above factors and perform incorrect decisions. Recently, vision transformer (ViT) and data-efficient image transformers (DeiT) present their significant performance in traditional classification tasks. The self-attention mechanism makes transformers obtain a global receptive field in the first layer which dramatically enhances the feature extraction capability. In this work, we first propose a novel pure transformer-based mask vision transformer (MVT) for FER in the wild, which consists of two modules: a transformer-based mask generation network (MGN) to generate a mask that can filter out complex backgrounds and occlusion of face images, and a dynamic relabeling module to rectify incorrect labels in FER datasets in the wild. Extensive experimental results demonstrate that our MVT outperforms state-of-the-art methods on RAF-DB with 88.62%, FERPlus with 89.22%, and AffectNet-7 with 64.57%, respectively, and achieves a comparable result on AffectNet-8 with 61.40%.

研究动机与目标

解决野外面部表情识别（FER）面临的挑战，包括复杂背景、图像质量低劣以及主观的人工标注问题。
克服现有模型在处理噪声多、多样性高且模糊的真实世界面部数据时的局限性。
开发一种纯Transformer架构，通过全局上下文建模和注意力机制增强特征学习能力。
引入掩码生成网络（MGN），以过滤掉背景和遮挡等无关图像区域。
提出一种动态重标注模块，利用基于注意力的不确定性估计，重新评估并纠正现有FER数据集中错误的标签，从而提升训练数据质量。

提出的方法

设计一种基于Transformer的掩码生成网络（MGN），用于预测空间掩码，以抑制输入图像中的非面部区域。
利用预测的掩码仅关注相关面部区域，从而减少复杂背景和遮挡带来的干扰。
实现一种动态重标注模块，通过基于注意力的不确定性估计，重新评估并纠正FER数据集中错误的标签。
在标准FER基准上，使用标准分类头端到端训练MViT模型，利用自注意力机制进行全局特征提取。
在训练过程中应用MGN和动态重标注模块，以提升特征的鲁棒性和标签的一致性。
利用视觉Transformer的全局感受野，捕捉面部区域之间的长距离依赖关系，从而增强表情判别能力。

实验结果

研究问题

RQ1在真实世界条件下，纯Transformer架构是否能超越卷积神经网络在面部表情识别中的表现？
RQ2通过学习到的掩码生成网络过滤背景和遮挡噪声，能在多大程度上提升模型性能？
RQ3动态重标注在纠正现有FER数据集中误标样本方面有多有效，能否提升模型的泛化能力？
RQ4结合掩码生成与标签校正是否能在多种不同的FER基准上带来一致的性能提升？
RQ5MViT框架是否能在包括RAF-DB、FERPlus、AffectNet-7和AffectNet-8在内的多个基准上实现最先进性能？

主要发现

MViT在RAF-DB上达到88.62%的准确率，超越了以往最先进方法。
在FERPlus上，MViT取得89.22%的准确率，展现出在具有挑战性的现实世界数据集上的强大性能。
在AffectNet-7上，模型达到64.57%的准确率，创下该基准的新最先进水平。
在AffectNet-8上，MViT实现61.40%的准确率，尽管该数据集具有高度多样性与标注噪声，仍表现出具有竞争力的性能。
消融实验证实，掩码生成网络和动态重标注模块均对性能提升有显著贡献。
MViT中的全局注意力机制通过捕捉面部区域之间的长距离依赖关系，实现了更优的特征学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。