Skip to main content
QUICK REVIEW

[論文レビュー] MVT: Mask Vision Transformer for Facial Expression Recognition in the wild

Hanting Li, Mingzhe Sui|arXiv (Cornell University)|Jun 8, 2021
Emotion and Mood Recognition被引用数 48
ひとこと要約

この論文は、自然環境でのFERのための純粋なトランスフォーマー系Mask Vision Transformer (MVT)を提案し、マスク生成ネットワーク(MGN)と動的リラベリングモジュールを特徴とし、RAF-DB、FERPlus、およびAffectNet-7で最先端の結果を達成(AffectNet-8では同等の結果)

ABSTRACT

Facial Expression Recognition (FER) in the wild is an extremely challenging task in computer vision due to variant backgrounds, low-quality facial images, and the subjectiveness of annotators. These uncertainties make it difficult for neural networks to learn robust features on limited-scale datasets. Moreover, the networks can be easily distributed by the above factors and perform incorrect decisions. Recently, vision transformer (ViT) and data-efficient image transformers (DeiT) present their significant performance in traditional classification tasks. The self-attention mechanism makes transformers obtain a global receptive field in the first layer which dramatically enhances the feature extraction capability. In this work, we first propose a novel pure transformer-based mask vision transformer (MVT) for FER in the wild, which consists of two modules: a transformer-based mask generation network (MGN) to generate a mask that can filter out complex backgrounds and occlusion of face images, and a dynamic relabeling module to rectify incorrect labels in FER datasets in the wild. Extensive experimental results demonstrate that our MVT outperforms state-of-the-art methods on RAF-DB with 88.62%, FERPlus with 89.22%, and AffectNet-7 with 64.57%, respectively, and achieves a comparable result on AffectNet-8 with 61.40%.

研究の動機と目的

  • 難しい背景、遮蔽、注釈不確実性を伴う自然環境下での表情認識に対処する。
  • 背景ノイズをフィルタリングするためのマスキングを用いた純粋なトランスフォーマー系FERフレームワーク(MVT)を提案する。
  • 訓練中の誤ラベルサンプルを是正する動的リラベリング戦略を導入する。
  • 多様な野外データセット全体で堅牢なFER性能を達成するために事前学習済みVision Transformerを活用する。

提案手法

  • 背景と遮蔽を抑制する per-image マスクを生成するためにトランスフォーマーを基盤としたマスク生成ネットワーク(MGN)を導入する。
  • マスク処理された画像をVision Transformer(ViT/DeiT-Sバックボーン)に入力し、クラス トークンを用いて表情分類を行う。
  • 予測表情の分散とターゲットマスク領域を用いた選択的マスキングを促進する新しい生成器損失とトランスフォーマー判別器を用いたGAN風設定でMGNを訓練する。
  • 与えられたラベル確率 P_gt に応じて閾値 f(P_gt) + δ を用いてラベル再ラベリングを決定する動的リラベリングモジュールを適用する。
  • マスクされた入力で分類器(DeiT-S)をファインチューニングし、FER訓練中はMGNを凍結したままにする。

実験結果

リサーチクエスチョン

  • RQ1学習済みマスクを付与した場合、純粋なトランスフォーマーアーキテクチャは野外でのFERを効果的に処理できるか?
  • RQ2動的リラベリング戦略は野外FERデータセットでの訓練の安定性と精度を向上させるか?
  • RQ3背景、遮蔽、およびポーズ変動に対するロバスト性に対してマスキングは、RAF-DB、FERPlus、AffectNet全体でどのような影響を与えるか?

主な発見

  • MVTはRAF-DBで88.62%、FERPlusで89.22%、AffectNet-7で64.57%、AffectNet-8で61.40%を達成。
  • Mask Generation Network (MGN)は背景と遮蔽を効果的にフィルタリングし、ベースラインと比較して精度を向上させる。
  • 動的リラベリングは固定閾値リラベリングを上回り、データセット全体で訓練を安定化させる。
  • この手法はRAF-DB、FERPlus、AffectNet-7で最先端の結果を、AffectNet-8では競争力のある結果を示す。
  • アブレーションによりマスク比率と動的リラベリング関数の選択が性能に影響を与え、データセット固有の最適設定が示される(例:RAF-DBではm=15%、FERPlusではm=20%)。
  • 遮蔽と姿勢変動に対して頑健で、Occlusion-RAF-DBでベースラインを上回り、Pose-RAF-DBでも競争力のある結果を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。