[論文レビュー] POSTER++: A simpler and stronger facial expression recognition network
POSTER++ は、画像からランドマークへの分岐を排除し、窓型クロスアテンションを適用し、小型 ViT による直接的な多尺度特徴抽出を行うことで、計算量を抑えつつ最先端 FER 性能を達成(8.4G FLOPs、43.7M パラメータ)。
Facial expression recognition (FER) plays an important role in a variety of real-world applications such as human-computer interaction. POSTER achieves the state-of-the-art (SOTA) performance in FER by effectively combining facial landmark and image features through two-stream pyramid cross-fusion design. However, the architecture of POSTER is undoubtedly complex. It causes expensive computational costs. In order to relieve the computational pressure of POSTER, in this paper, we propose POSTER++. It improves POSTER in three directions: cross-fusion, two-stream, and multi-scale feature extraction. In cross-fusion, we use window-based cross-attention mechanism replacing vanilla cross-attention mechanism. We remove the image-to-landmark branch in the two-stream design. For multi-scale feature extraction, POSTER++ combines images with landmark's multi-scale features to replace POSTER's pyramid design. Extensive experiments on several standard datasets show that our POSTER++ achieves the SOTA FER performance with the minimum computational cost. For example, POSTER++ reached 92.21% on RAF-DB, 67.49% on AffectNet (7 cls) and 63.77% on AffectNet (8 cls), respectively, using only 8.4G floating point operations (FLOPs) and 43.7M parameters (Param). This demonstrates the effectiveness of our improvements.
研究の動機と目的
- POSTER の計算非効率性を保ちつつFER精度を維持または向上させる。
- 冗長な分岐を排除して FLOPs とパラメータを削減する。
- 効率的なクロスフュージョンと多尺度特徴統合を導入する。
- 標準FERベンチマークで最先端の性能を示しつつ、リソース効率を高める。
提案手法
- POSTER と同様の face landmark detector と image backbone を保持する。
- 二流の設計から image-to-landmark 分岐を除去する。
- バニラのクロスアテンションを窓ベースのクロスアテンション(W-MCSA)に置換して計算量を線形化する。
- ピラミッド型多尺度特徴抽出を排除し、バックボーンとランドマーク検出器から直接多尺度特徴を二層Vision Transformer(ViT)を用いて融合する。
- 多尺度特徴を統合するために小型の ViT を導入する。
- 窓ベースのクロスフュージョンを使用して局所モデリングを強化し計算を削減する。
実験結果
リサーチクエスチョン
- RQ1POSTER++ は POSTER と比べてパラメータと FLOPs を大幅に削減しつつFER精度を維持または向上できるか?
- RQ2各アーキテクチャ変更(二-streamの削除、窓付き注意によるクロスフュージョン、直接的な多尺度抽出)の全体性能への寄与はどれか?
- RQ3窓ベースのクロスアテンションは二-stream FER アーキテクチャにおけるバニラクロスアテンションを置換するのに十分か?
- RQ4軽量 ViT によって統合された多尺度特徴は、POSTER のピラミッド設計と同等かそれ以上の結果を提供するか?
主な発見
- POSTER++ は RAF-DB(92.21%)、AffectNet(7 cls: 67.49%)、AffectNet(8 cls: 63.77%)で SOTA FER 性能を達成。
- CAER-S では POSTER++ が 93.00% に達し、POSTER(92.73%)を上回る。
- POSTER++ は 8.4G FLOPs と 43.7M パラメータを使用し、POSTER(8.4G vs 15.7G; 43.7M vs 71.8M)と比較して FLOPs およびパラメータの両方を削減。
- アブレーション研究はランドマークから画像へのクロスフュージョンが重要である一方、画像からランドマーク分岐を除去することでコスト削減と精度損失は限定的に留まる。
- 窓ベースのクロスアテンション(W-MCSA)は線形計算量を提供し、バニラのクロスアテンションより FER 精度を向上させる。
- 直接的な多尺度特徴抽出を2層 ViT で行うことは、多尺度情報の効果的な統合に十分である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。