QUICK REVIEW

[論文レビュー] EmotiEffNet Facial Features in Uni-task Emotion Recognition in Video at ABAW-5 competition

Andrey V. Savchenko|arXiv (Cornell University)|Mar 16, 2023

Emotion and Mood Recognition被引用数 15

ひとこと要約

この論文は、EmotiEffNet埋め込みを用いたMLP/LightAutoML分類器と時系列平滑化を組み合わせたビデオ感情認識パイプラインを提案し、ABAW-5でAff-Wild2に対するVA、FER、AUの指標を改善。

ABSTRACT

In this article, the results of our team for the fifth Affective Behavior Analysis in-the-wild (ABAW) competition are presented. The usage of the pre-trained convolutional networks from the EmotiEffNet family for frame-level feature extraction is studied. In particular, we propose an ensemble of a multi-layered perceptron and the LightAutoML-based classifier. The post-processing by smoothing the results for sequential frames is implemented. Experimental results for the large-scale Aff-Wild2 database demonstrate that our model achieves a much greater macro-averaged F1-score for facial expression recognition and action unit detection and concordance correlation coefficients for valence/arousal estimation when compared to baseline.

研究の動機と目的

VA, FER, and AU tasks under ABAW-5 constraints.
AffectNetで事前学習されたEmotiEffNetの顔埋め込みを活用して、Aff-Wild2固有のバイアスに依存しないフレームレベル表現を生成する。
MLPとLightAutoMLのアンサンブルを用いた時系列平滑化とともに、下流タスクを評価する。
ベースラインCNNや以前のEfficientNetベース手法と比較して利益を定量化する。
再現性のあるワークフローを提供し、音声統合や逐次推論などの将来の改善の可能性を議論する。

提案手法

FERおよびVAタスク向けにファインチューニングされたEmotiEffNet-B0またはMT-EmotiEffNet-B0モデルから、フレームごとの埋め込みx(t)とロジットl(t)を抽出する。
ロジットl(t)、価値性V(t)、覚醒A(t)を結合し、MLPおよびLightAutoMLを入力としてVA、FERクラス、またはAUラベルを予測する。
VAの場合、ValenceとArousalのConcordance Correlation Coefficientを最大化するために、隠れ層なしのMLPをトレーニングし、tanh活性を用いる。
FERとAUについては、1つの隠れ層をもつMLPをトレーニングする。FERはsoftmax、AU検出は閾値付きのシグモイドを用いる。
必要に応じてABAW-5データでEmotiEffNetをファインチューニングし、カーネルサイズkのボックス/メディアンフィルターによるフレームレベルの平滑化を適用して安定性を向上させる。
ブレンド/アンサンブル（LightAutoML、MLP、ファインチューニング済みモデル）および事前学習済みのVA専用、または事前学習済みロジットのプリセットで性能を向上させる実験を行う。
平滑化カーネルサイズkは重要なハイパーパラメータであり、より大きいk（例: VA/ARは25–50）がCCCを向上させることが多い一方、AU検出には小さいk（3–5）が適している。
再現可能なワークフローと再現のための公開トレーニングコード（GitHub）を提供する。

実験結果

リサーチクエスチョン

RQ1EmotiEffNetベースの顔特徴は、ABAW-5においてAff-Wild2のフレームレベルVA、FER、AUの性能をベースラインと比較して改善できるか。
RQ2分類器の選択（MLP vs LightAutoML）と特徴入力（埋め込みvsロジット）が下流タスクの性能に与える影響はどの程度か。
RQ3時系列平滑化はVA、FER、AUタスクの予測安定性と精度にどのように影響するか。
RQ4ABAW-5データでEmotiEffNetをファインチューニングすることは、凍結された事前学習埋め込みを使用する場合より測定可能な利益を提供するか。
RQ5単一タスクのABAW-5課題において、複数の分類器と入力表現をブレンドする利点は何か。

主な発見

EmotiEffNet埋め込みとMLP/LightAutoMLアンサンブルを用いたパイプラインは、ベースラインのResNet-50および以前のEfficientNet利用よりVA CCCスコアを大幅に改善する。
FERのmacro F1スコアと精度が平滑化とアンサンブル戦略で顕著に改善され、VGGFACEベースラインに対して大きな利得を得ている。
AU検出のmacro F1スコアはMLPベースのアプローチと平滑化で向上し、いくつかのベースラインを上回り、時系列ブレンディングの利点を示している。
最高のVA結果はCCC_VとCCC_Aの改善を基準値や過去のEmotiEffNet構成より顕著に達成し、平滑化カーネルサイズを25–50の範囲とすることでCCCの大きな利得を得た。
AUの結果は、急速なフレーム変化のため小さい平滑化（k約3–5）が適しており、アンサンブル/閾値最適化がF1スコアをさらに向上させることを示している。
タスクを通じて、提案されたEmotiEffNetベースのワークフローは検証データで公式ベースラインや以前のEfficientNetの適用を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。