[論文レビュー] Robust Facial Expression Recognition with Convolutional Visual Transformers
本論文は、注意に基づく選択的特徴抽出と視覚トークンのグローバル自己注意を用いて、マルチスケールCNN特徴を融合することで、屋外環境における頑健な顔の感情認識を実現する畳み込み型ビジョナルトランスフォーマーを提案する。RAF-DB(88.14%)、FERPlus(88.81%)、AffectNet(61.85%)で最先端の性能を達成し、遮蔽やポーズ変化といった現実世界の課題に対しても強力な汎化性能と頑健性を示している。
Facial Expression Recognition (FER) in the wild is extremely challenging due to occlusions, variant head poses, face deformation and motion blur under unconstrained conditions. Although substantial progresses have been made in automatic FER in the past few decades, previous studies are mainly designed for lab-controlled FER. Real-world occlusions, variant head poses and other issues definitely increase the difficulty of FER on account of these information-deficient regions and complex backgrounds. Different from previous pure CNNs based methods, we argue that it is feasible and practical to translate facial images into sequences of visual words and perform expression recognition from a global perspective. Therefore, we propose Convolutional Visual Transformers to tackle FER in the wild by two main steps. First, we propose an attentional selective fusion (ASF) for leveraging the feature maps generated by two-branch CNNs. The ASF captures discriminative information by fusing multiple features with global-local attention. The fused feature maps are then flattened and projected into sequences of visual words. Second, inspired by the success of Transformers in natural language processing, we propose to model relationships between these visual words with global self-attention. The proposed method are evaluated on three public in-the-wild facial expression datasets (RAF-DB, FERPlus and AffectNet). Under the same settings, extensive experiments demonstrate that our method shows superior performance over other methods, setting new state of the art on RAF-DB with 88.14%, FERPlus with 88.81% and AffectNet with 61.85%. We also conduct cross-dataset evaluation on CK+ show the generalization capability of the proposed method.
研究の動機と目的
- 遮蔽、ポーズ変化、運動ブラーの影響により性能が低下する、制約のない現実世界環境における顔の感情認識の課題に対処すること。
- ラボ環境で訓練された従来のCNNベースの手法の限界を克服し、グローバルかつシーケンスベースのモデリングアプローチを導入すること。
- 顔の特徴を視覚語のシーケンスに変換し、自己注意を用いて長距離依存関係をモデル化することで、頑健な感情認識を実現すること。
- CK+でのクロスデータセット評価を通じて、学習ドメインを超えた転送可能性を示し、汎化能力を実証すること。
提案手法
- 顔画像から局所的およびグローバルな表現を捉えるために、マルチスケール特徴マップを抽出する二本のブランチCNNアーキテクチャを採用する。
- グローバル・ローカル注意を用いて特徴を適応的に融合することで、判別的な領域を強調する、注意に基づく選択的統合(ASF)モジュールを導入する。
- 統合された特徴マップを平坦化し、各特徴を学習可能な視覚語として扱うための変換を施す。
- マルチヘッド自己注意を用いたトランスフォーマーインクリメントを適用し、視覚トークン間の長距離依存関係をモデル化することで、感情分類の性能を向上させる。
- 標準的な屋外環境用の感情認識データセット上で交差エントロピー損失を用いて、エンドツーエンドのモデルを訓練する。
- 視覚トークンのシーケンスにおける空間的関係を保持するために、位置エンコーディングを活用する。
実験結果
リサーチクエスチョン
- RQ1自己注意でモデル化された視覚トークンシーケンスは、制約のない環境下での顔の感情認識の頑健性を向上させることができるか?
- RQ2注意ベースの特徴融合は、標準的なCNN特徴融合と比較して、判別的表現学習をどの程度向上させるか?
- RQ3本手法は、異なるデータ分布を持つデータセット間でもどの程度汎化可能か?
- RQ4トランスフォーマーのグローバルモデリング能力は、局所的受容野に基づくCNNよりも、現実世界のFERベンチマークで優れているか?
主な発見
- 提案手法は、標準評価設定下でRAF-DBデータセットにおいて最先端の88.14%の正確度を達成した。
- FERPlusデータセットでは88.81%の正確度を達成し、屋外設定下で従来手法を上回った。
- 大規模なAffectNetデータセットでは61.85%の正確度を達成し、高い変動性と現実世界のノイズに対しても有効性を示した。
- CK+におけるクロスデータセット評価では、強力な汎化性能が示され、モデルが頑健で分離可能な顔の感情表現を学習していることが示された。
- 注意に基づく選択的統合機構は、判別的な顔領域に注目することで、特徴表現を効果的に向上させた。
- 自己注意を用いた視覚トークンの統合は、すべての3つの屋外環境データセットにおいて、純粋なCNNベースラインと比較して顕著に性能を向上させた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。