[論文レビュー] MViT: Mask Vision Transformer for Facial Expression Recognition in the wild.
本稿では、野生環境下の顔の感情認識(FER)を目的とした純粋なトランスフォーマー基盤モデルMViTを提案する。背景や遮蔽ノイズを低減するためのマスク生成ネットワーク(MGN)と、誤ったアノテーションを是正するためのダイナミックリラベルモジュールを備える。MViTは、RAF-DB(88.62%)、FERPlus(89.22%)、AffectNet-7(64.57%)で最先端性能を達成し、AffectNet-8(61.40%)でも優れた結果を示した。
Facial Expression Recognition (FER) in the wild is an extremely challenging task in computer vision due to variant backgrounds, low-quality facial images, and the subjectiveness of annotators. These uncertainties make it difficult for neural networks to learn robust features on limited-scale datasets. Moreover, the networks can be easily distributed by the above factors and perform incorrect decisions. Recently, vision transformer (ViT) and data-efficient image transformers (DeiT) present their significant performance in traditional classification tasks. The self-attention mechanism makes transformers obtain a global receptive field in the first layer which dramatically enhances the feature extraction capability. In this work, we first propose a novel pure transformer-based mask vision transformer (MVT) for FER in the wild, which consists of two modules: a transformer-based mask generation network (MGN) to generate a mask that can filter out complex backgrounds and occlusion of face images, and a dynamic relabeling module to rectify incorrect labels in FER datasets in the wild. Extensive experimental results demonstrate that our MVT outperforms state-of-the-art methods on RAF-DB with 88.62%, FERPlus with 89.22%, and AffectNet-7 with 64.57%, respectively, and achieves a comparable result on AffectNet-8 with 61.40%.
研究の動機と目的
- 複雑な背景、低品質な画像、主観的な人間によるアノテーションといった、野生環境下の顔の感情認識(FER)の課題に対処する。
- ノイズが多く、多様で曖昧な現実世界の顔データに対して苦労する既存モデルの限界を克服する。
- グローバルなコンテキストモデリングと注目メカニズムを通じて特徴学習を強化する、純粋なトランスフォーマー基盤アーキテクチャを開発する。
- 背景や遮蔽などの関係のない画像領域をフィルタリングするためのマスク生成ネットワーク(MGN)を導入する。
- 注目に基づく不確実性推定を用いて、FERデータセット内の誤ってラベル付けされたサンプルを再評価・是正するダイナミックリラベルモジュールを提案する。
提案手法
- 入力画像内の非顔領域を抑圧するための空間マスクを予測するトランスフォーマー基盤のマスク生成ネットワーク(MGN)を設計する。
- 予測されたマスクを用いて、関連する顔領域にのみ注目することで、複雑な背景や遮蔽からの干渉を低減する。
- 注目に基づく不確実性推定を用いて、FERデータセット内の誤ったラベルを再評価・是正するダイナミックリラベルモジュールを実装する。
- 標準的なFERベンチマーク上で、標準的な分類ヘッドと組み合わせて、自己注意メカニズムを活用したグローバル特徴抽出を実現するMViTモデルをエンドツーエンドで学習する。
- MGNおよびダイナミックリラベルモジュールを学習中に適用し、特徴の頑健性とラベルの一貫性を向上させる。
- ビジョントランスフォーマーのグローバル受容場を活用して顔領域間の長距離依存関係を捉え、感情の識別を強化する。
実験結果
リサーチクエスチョン
- RQ1純粋なトランスフォーマー基盤アーキテクチャは、現実世界の条件下で畳み込みネットワークを上回る性能を発揮できるか?
- RQ2学習されたマスク生成ネットワークが、背景や遮蔽ノイズをフィルタリングすることで、どの程度性能向上に寄与するか?
- RQ3既存のFERデータセット内の誤ってラベル付けされたサンプルを是正するダイナミックリラベルは、モデルの一般化性能を向上させるのにどの程度有効か?
- RQ4マスク生成とラベル是正を組み合わせることで、多様なFERベンチマーク全体にわたって一貫した性能向上が得られるか?
- RQ5MViTフレームワークは、RAF-DB、FERPlus、AffectNet-7、AffectNet-8を含む複数のベンチマークで最先端の結果を達成できるか?
主な発見
- MViTはRAF-DBで88.62%の精度を達成し、以前の最先端手法を上回った。
- FERPlusでは89.22%の精度を達成し、挑戦的で現実世界に近いデータセットでも優れた性能を示した。
- AffectNet-7では64.57%の精度を達成し、このベンチマークで新たな最先端を樹立した。
- AffectNet-8では61.40%の精度を達成し、データセットの高い多様性とアノテーションのノイズにもかかわらず、競争力のある性能を示した。
- アブレーションスタディの結果、マスク生成ネットワークとダイナミックリラベルモジュールの両方が、性能向上に顕著な寄与をしていることが確認された。
- MViTのグローバル注目メカニズムにより、顔領域間の長距離依存関係を捉えることができ、より良い特徴学習が実現した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。