QUICK REVIEW

[論文レビュー] NR-DFERNet: Noise-Robust Network for Dynamic Facial Expression Recognition

Hanting Li, Mingzhe Sui|arXiv (Cornell University)|Jun 10, 2022

Emotion and Mood Recognition被引用数 20

ひとこと要約

NR-DFERNetは、動的と静的空間特徴を融合し、時間的 framing のための動的クラス tokenを使用し、野外動画データにおけるノイズの多いフレームを抑制する意思決定時のスニペットベースフィルターを用いることで、DFERに対してノイズ耐性のあるアーキテクチャを提案します。DFEWで最先端の成果を達成し、AFEWでも競争力のある結果を示します。

ABSTRACT

Dynamic facial expression recognition (DFER) in the wild is an extremely challenging task, due to a large number of noisy frames in the video sequences. Previous works focus on extracting more discriminative features, but ignore distinguishing the key frames from the noisy frames. To tackle this problem, we propose a noise-robust dynamic facial expression recognition network (NR-DFERNet), which can effectively reduce the interference of noisy frames on the DFER task. Specifically, at the spatial stage, we devise a dynamic-static fusion module (DSF) that introduces dynamic features to static features for learning more discriminative spatial features. To suppress the impact of target irrelevant frames, we introduce a novel dynamic class token (DCT) for the transformer at the temporal stage. Moreover, we design a snippet-based filter (SF) at the decision stage to reduce the effect of too many neutral frames on non-neutral sequence classification. Extensive experimental results demonstrate that our NR-DFERNet outperforms the state-of-the-art methods on both the DFEW and AFEW benchmarks.

研究の動機と目的

実世界のノイズ下での堅牢なDFERを、ノイズフレームとキーとなるフレームを区別する動機づけ。
空間・時間・意思決定段階の成分を開発し、表情信号を維持しつつノイズを抑制する。
動的-static融合が空間的識別性とロバスト性を向上させることを示す。
ダイナミックなクラストークンがトランスフォーマーのターゲット関連フレームへの焦点を助けることを示す。
意思決定段階でのスニペットベースフィルターが過剰なニュートラルフレームの影響を扱う効果を証明する。

提案手法

動的フレーム差分とダウンサンプリングされた静的特徴を組み合わせる動的-静的融合モジュール。
ターゲット関連フレームを減衰させる動的クラストークンを用いたトランスフォーマー基盤の時間的段階。
意思決定段階のスニペットベースフィルターでニュートラル優位のスニペットのウェイトを低下させ、非ニュートラル判断を優先。
訓練/テスト時のクリップの動的サンプリングによる長さ16シーケンスの作成。
DSF、DCT、SFの寄与をUARとWARで検証するアブレーション研究。
クロスバリデーションと事前学習戦略を用いたDFEWおよびAFEWベンチマークでの実験。

実験結果

リサーチクエスチョン

RQ1NR-DFERNetは野外DFERシーケンスにおけるノイズフレーム（N1およびN2）の影響を抑制できるか。
RQ2動的・静的空間特徴を統合することでダイナミック表現の識別性は向上するか。
RQ3動的クラストークンは注意機構における時間フレーム選択を改善するか。
RQ4意思決定段階でのスニペットベースフィルターは過剰なニュートラルフレームによる誤分類を抑制するのに有効か。
RQ5DFEWおよびAFEWデータセットに対してNR-DFERNetは最先端手法に対してどの程度優れているか。

主な発見

方法	サンプル	幸福	悲しみ	中立	怒り	驚き	嫌悪	恐怖	UAR	WAR	(G)
C3D	DS	-	-	-	-	-	-	-	-	-	-
Former-DFER	DS	84.05	62.57	67.52	70.03	56.43	3.45	31.78	53.69	65.70	9.11
NR-DFERNet	DS	88.47	64.84	70.03	75.09	61.60	0.00	19.43	54.21	68.19	6.33
NR-DFERNet ∗	DS	86.42	65.10	70.40	72.88	50.10	0.00	45.44	55.77	68.01	6.33

DSF、DCT、SFを組み込んだNR-DFERNetはDFEWのUAR/WARで最先端を達成（例: 標準設定で88.47/53.54）。
動的-static融合は基準法よりも一貫してWARとUARの双方を改善。
動的クラストークンはターゲット非関連フレームの干渉を減らすことで追加の利得を提供；アブレーションでUAR/WARが約1.15/1.95ポイント改善。
スニペットベースフィルターはモデル全体の精度が向上するにつれて効果が大きくなり、ニュートラルフレーム優勢への対処役割を検証。
AFEWではNR-DFERNetがいくつかのベースラインを上回り、DFEWで事前学習してAFEWで微調整したFormer-DFERに近づく／上回る場面もある。
DFEWでオーバーサンプリングを適用した場合、NR-DFERNetはクラス不均衡緩和下でFormer-DFERよりUARで2.08%、WARで2.31%上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。