[論文レビュー] Frame-level Prediction of Facial Expressions, Valence, Arousal and Action Units for Mobile Devices
EfficientNetをAffectNetで事前学習した軽量なフレームレベルの顔の感情分析モデルを提案し、表情・価値性/覚醒・アクションユニットを予測、オンデバイスのモバイル処理に適したもの。Aff-Wild2を対象としたABAW3チャレンジで競争力のある結果を示す。
In this paper, we consider the problem of real-time video-based facial emotion analytics, namely, facial expression recognition, prediction of valence and arousal and detection of action unit points. We propose the novel frame-level emotion recognition algorithm by extracting facial features with the single EfficientNet model pre-trained on AffectNet. As a result, our approach may be implemented even for video analytics on mobile devices. Experimental results for the large scale Aff-Wild2 database from the third Affective Behavior Analysis in-the-wild (ABAW) Competition demonstrate that our simple model is significantly better when compared to the VggFace baseline. In particular, our method is characterized by 0.15-0.2 higher performance measures for validation sets in uni-task Expression Classification, Valence-Arousal Estimation and Expression Classification. Due to simplicity, our approach may be considered as a new baseline for all four sub-challenges.
研究の動機と目的
- モバイルおよび組込みシステム向けにリアルタイムのオンデバイス顔認識感情分析を促進する。
- アンサンブルなしで複数の感情タスクを実行できる、単一の軽量CNNベースのパイプラインを開発する。
- 事前学習済みの顔表現を活用してデータセット間の汎用性を高め、計算負担を削減する。
- EfficientNetの特徴の上にシンプルなMLPベースのヘッドを乗せることで、単一タスクおよびマルチタスクの性能を高く達成できることを示す。
提案手法
- 大規模な顔認識データ(VGGFace2)で軽量CNNを事前学習して、汎用的な顔特徴を学習する。
- 8つの基本表情に対してAffectNet上でCNNをファインチューニングし、感情特徴抽出器を形成する。
- ファインチューニング済みネットワークから各ビデオフレームのフレームレベルの埋め込みと表情スコアを抽出する。
- 埋め込みおよび/またはスコアを特徴として用い、タスクごとに1つの浅いMLPベースの分類器/回帰器を訓練する。
- 安定性向上のため、スライディングウィンドウを介して平均フィルタまたは中央値フィルタでフレーム平滑化を任意で適用する。
実験結果
リサーチクエスチョン
- RQ1EfficientNetを基盤とした単一の軽量モデルは、フレームレベル・オンデバイス設定で4つのABAW3サブチャレンジ(FER、AU、Valence-Arousal)を効果的にすべて解決できるか?
- RQ2埋め込みは感情スコアより特徴として優れており、両方を結合することはマルチタスク性能に有益か?
- RQ3各タスクのフレームレベル予測における平滑化の影響はどの程度か?
- RQ4感情予測のマルチタスク学習において、シンプルなMLPヘッドはより複雑なマルチタスクネットワークと比較してどうか?
主な発見
- シンプルなMLPヘッドを備えた単一のEfficientNetベースの特徴抽出器は、ABAW3タスクでVGGFaceベースのベースラインを上回ることができる。
- 埋め込みは一般に表情/ AUの予測を感情スコアよりも良くし、埋め込みとスコアを結合することで強い性能を発揮する。
- より大きな窓長のフレームレベル平滑化(例: k=15)は、Valence/ArousalおよびAU指標で顕著な改善をもたらす。
- 提案手法は競争力のある結果を達成し、表情、AU、VAタスクのいくつかの指標でベースラインを平均的に上回った。
- マルチタスク学習では、シンプルなロジスティック回帰ヘッドを備えたEfficientNet-B0が検証/テスト指標の総合で最も良く、チャレンジエントリの中でも上位に位置した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。