QUICK REVIEW

[論文レビュー] MMA-MRNNet: Harnessing Multiple Models of Affect and Dynamic Masked RNN for Precise Facial Expression Intensity Estimation

Dimitrios Kollias, Andreas Psaroudakis|arXiv (Cornell University)|Mar 1, 2023

Emotion and Mood Recognition被引用数 9

ひとこと要約

FaceRNET は、各フレームの感情表現（VA、AUs、基本表情）を用い、マスク対応 RNN を用いて可変長の動画と動画レベルの注釈に対処する、動的なマルチ出力顔表情強度推定ネットワークであり、Hume-Reaction で最先端の結果を達成します。

ABSTRACT

This paper presents MMA-MRNNet, a novel deep learning architecture for dynamic multi-output Facial Expression Intensity Estimation (FEIE) from video data. Traditional approaches to this task often rely on complex 3-D CNNs, which require extensive pre-training and assume that facial expressions are uniformly distributed across all frames of a video. These methods struggle to handle videos of varying lengths, often resorting to ad-hoc strategies that either discard valuable information or introduce bias. MMA-MRNNet addresses these challenges through a two-stage process. First, the Multiple Models of Affect (MMA) extractor component is a Multi-Task Learning CNN that concurrently estimates valence-arousal, recognizes basic facial expressions, and detects action units in each frame. These representations are then processed by a Masked RNN component, which captures temporal dependencies and dynamically updates weights according to the true length of the input video, ensuring that only the most relevant features are used for the final prediction. The proposed unimodal non-ensemble learning MMA-MRNNet was evaluated on the Hume-Reaction dataset and demonstrated significantly superior performance, surpassing state-of-the-art methods by a wide margin, regardless of whether they were unimodal, multimodal, or ensemble approaches. Finally, we demonstrated the effectiveness of the MMA component of our proposed method across multiple in-the-wild datasets, where it consistently outperformed all state-of-the-art methods across various metrics.

研究の動機と目的

動画レベルの注釈に対応した、動的なマルチ出力 FEIE アーキテクチャを導入する。
フレームごとの感情表現（VA、AUs、基本表情）を活用して堅牢な時間的モデリングを行う。
動的ルーティングを備えたマスク層により、可変長の入力動画を処理する。
感情表現間の関係を組み込む損失を用いた訓練の改善。
ベースラインおよびマルチモーダル手法と比較して、Hume-Reaction データセットにおける最先端性能を示す。

提案手法

Affect Representation Extractor Component (REC) は、各フレームから VA、7つの基本表情、および 17 の AU を予測する多タスク CNN である。
REC は、新規損失 (L_REC) を用いて訓練され、CCC ベースの項、交差エントロピー損失、二値交差エントロピー、AU–表情関係に関する事前知識を注入する距離損失項 L_DM を含む。
RNN が各フレームの REC 特徴量に作用し、動画全体の時間的ダイナミクスをモデル化する。
マスク層は、実際の動画長に応じて RNN 出力を動的にルーティングし、可変フレーム数の柔軟な処理を可能にする。
連結されたルーティング済み RNN 出力は密結合層に入力され、7つの表情強度を予測する出力層へ送られる。
訓練には、7つの表情に対するピアソン相関ベースの損失（1 - 平均 ρ）を用い、評価指標に合わせる。

実験結果

リサーチクエスチョン

RQ1多タスク REC によって抽出されたフレームごとの感情表現（VA、AUs、基本表情）は、動画レベルの注釈で FEIE の精度を向上させることができるか。
RQ2Mask ベースの動的ルーティング機構は、統一された FEIE パイプラインで可変長の動画を効果的に処理できるか。
RQ3L_DM による AU–表情関係に関する事前知識の組み込みは、REC における勾配の質と収束を向上させるか。
RQ4FaceRNET は Hume-Reaction データセットにおいて、最先端の単一モードおよびマルチモーダルアプローチとどのように比較されるか。
RQ5アーキテクチャの選択（GRU vs LSTM、層数/ユニット数）や損失の変種が FEIE の性能に与える影響はどの程度か。

主な発見

モデル	Pearson の相関係数（ρ）
HFUT-CVers	0.473
USTC-IAT-United	0.438
USTC-AC	0.373
NISL-2023	0.367
ViPER	0.297
FAU-Baseline	0.2801
VGGface 2-Baseline	0.183
Fusion-Baseline	0.203
FaceRNET	0.499

FaceRNET はテストセットで最先端のベースラインおよびいくつかのマルチモーダル手法を上回り、Pearson ρ=0.499 を達成した。
アブレーション研究は、3つのタスク表現（VA、基本表情、AUs）をすべて使用する方が最良の性能を示し、いずれか1つのタスクを使用した場合より高い ρ を得ることを示した。
マスクルーティングと提案された L_REC/L_DM 損失は、動的ルーティングなしやMSE損失を用いた変種に比べ、性能向上に顕著に寄与する。
最良の REC 構成は、128 ユニットの単一 GRU 層と、それに続く 32 ユニットの密結合層を使用し、可変長処理のために Mask 層と組み合わせる。
AU および表現表現を用いた REC 単独でも競争力のある結果を提供し、結合表現は性能を最大化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。