[論文レビュー] Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition
本稿では、ポーズやオクルージョンに強い顔の感情認識のための領域注目ネットワーク(RAN)を提案する。アダプティブな注目機構により、重要な顔領域に注目し、アクションユニットを優先するための領域バイアス損失を組み込む。FerPlus、AffectNet、RAF-DB、SFEWの各ベンチマークで最先端性能を達成し、FerPlusでは最大89.16%の精度、AffectNetではオーバーサンプリングを用いて59.5%の精度を達成した。
Occlusion and pose variations, which can change facial appearance significantly, are two major obstacles for automatic Facial Expression Recognition (FER). Though automatic FER has made substantial progresses in the past few decades, occlusion-robust and pose-invariant issues of FER have received relatively less attention, especially in real-world scenarios. This paper addresses the real-world pose and occlusion robust FER problem with three-fold contributions. First, to stimulate the research of FER under real-world occlusions and variant poses, we build several in-the-wild facial expression datasets with manual annotations for the community. Second, we propose a novel Region Attention Network (RAN), to adaptively capture the importance of facial regions for occlusion and pose variant FER. The RAN aggregates and embeds varied number of region features produced by a backbone convolutional neural network into a compact fixed-length representation. Last, inspired by the fact that facial expressions are mainly defined by facial action units, we propose a region biased loss to encourage high attention weights for the most important regions. We validate our RAN and region biased loss on both our built test datasets and four popular datasets: FERPlus, AffectNet, RAF-DB, and SFEW. Extensive experiments show that our RAN and region biased loss largely improve the performance of FER with occlusion and variant pose. Our method also achieves state-of-the-art results on FERPlus, AffectNet, RAF-DB, and SFEW. Code and the collected test data will be publicly available.
研究の動機と目的
- オクルージョンやポーズ変動を伴う顔の感情認識のための現実世界でのアノテーション付きデータセットの不足に対処する。
- 顔の領域を適応的に重み付けする深層学習モデルを構築し、オクルージョンやポーズ変動に対する耐性を向上させる。
- 顔の感情認識に重要なアクションユニットに関連する領域に注目を向けるよう促す、領域バイアス損失関数を設計する。
- 実際の状況下で困難な条件下でも、複数のベンチマークデータセットで最先端の性能を示す。
提案手法
- FerPlus、AffectNet、RAF-DB、SFEWといった屋外データセットに、ポーズおよびオクルージョン属性をアノテートすることで、新たなベンチマークテストセットを構築する。
- 自己注意および関係性注意モジュールを用いて、複数の顔領域からの特徴を統合し、固定長の表現に変換する領域注目ネットワーク(RAN)を提案する。
- 重要なアクションユニットに関連する領域に高い注目重みを割り当てるよう促す、領域バイアス損失(RB-Loss)を統合する。
- バックボーン畳み込みニューラルネットワーク(例:ResNet18、VGG16)を用いて領域特徴を抽出し、RANを用いてエンドツーエンドで動的注目重みを学習する。
- レアまたは困難なサンプルの特徴学習を強化するため、領域のクロッピングおよびリスケーリングによるデータ拡張を適用する。
- RANとRB-Lossを用いて、事前学習済みモデル(例:VGGFace、MS-Celeb-1M)を微調整し、現実世界のFERにおける汎化性能を向上させる。
実験結果
リサーチクエスチョン
- RQ1オクルージョンおよびポーズ変動は、既存の顔の感情認識モデルの性能を、現実世界のデータセット上でどの程度低下させるか?
- RQ2顔領域に注目を向ける学習可能な注目機構は、FERにおけるオクルージョンおよびポーズ変動に対する耐性を向上させることができるか?
- RQ3領域バイアス損失関数は、感情認識に重要な顔のアクションユニットに注目を向けるモデルの注目度をどの程度向上させるか?
- RQ4提案されたRANフレームワークは、実際のオクルージョンおよびポーズ条件下で、多様なベンチマークで最先端の性能を達成できるか?
主な発見
- 提案されたRANは、FerPlusで89.16%の精度を達成し、以前の最先端手法を上回り、新たなSOTAを樹立した。
- AffectNetでは、オーバーサンプリングを用いたRANモデルが59.5%の精度を達成し、より大きなネットワークや追加データセットを用いた先行手法を上回った。
- RAF-DBでは、RANが86.90%の精度を達成し、DLP-CNNおよびgACNNよりもそれぞれ2.77%および1.83%高い性能を示した。
- SFEWでは、単一モデルでバリデーションセットで54.19%の精度を達成し、これまで報告された中で最高の単一モデル結果となった。
- RAN-ResNet18とRAN-VGG16を組み合わせたモデルアンサンブルは、SFEWで56.4%の精度を達成し、先行するアンサンブル手法を上回った。
- RANモデルは推論時間を0.025秒/画像(ベースラインの0.006秒/画像)に延長したが、GPU並列処理の効率性を維持した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。