[論文レビュー] Face Behavior a la carte: Expressions, Affect and Action Units in a Single Network
著者らは FaceBehaviorNet を導入し、野外データから seven basic emotions, 17 action units, and valence-arousal を共同推定するエンドツーエンドで訓練された holistic multi-task ネットワークを提案し、task coupling strategies を通じて単一タスクモデルより性能が向上することを示す。
Automatic facial behavior analysis has a long history of studies in the intersection of computer vision, physiology and psychology. However it is only recently, with the collection of large-scale datasets and powerful machine learning methods such as deep neural networks, that automatic facial behavior analysis started to thrive. Three of its iconic tasks are automatic recognition of basic expressions (e.g. happy, sad, surprised), estimation of continuous emotions (e.g., valence and arousal), and detection of facial action units (activations of e.g. upper/inner eyebrows, nose wrinkles). Up until now these tasks have been mostly studied independently collecting a dataset for the task. We present the first and the largest study of all facial behaviour tasks learned jointly in a single multi-task, multi-domain and multi-label network, which we call FaceBehaviorNet. For this we utilize all publicly available datasets in the community (around 5M images) that study facial behaviour tasks in-the-wild. We demonstrate that training jointly an end-to-end network for all tasks has consistently better performance than training each of the single-task networks. Furthermore, we propose two simple strategies for coupling the tasks during training, co-annotation and distribution matching, and show the advantages of this approach. Finally we show that FaceBehaviorNet has learned features that encapsulate all aspects of facial behaviour, and can be successfully applied to perform tasks (compound emotion recognition) beyond the ones that it has been trained in a zero- and few-shot learning setting.
研究の動機と目的
- 表現、AUs、および連続的な affect を非同質的な野外データ下で結びつける総合的な顔の振る舞い分析フレームワークを動機づける。
- 訓練時にタスクの関連性を活用する実用的な結合戦略(co-annotation および distribution matching)を提案する。
- 大型で部分的に重なるデータセット上で FaceBehaviorNet をエンドツーエンドで訓練し、タスク全体の性能を向上させる。
- 学習した特徴がゼロショットおよび少数ショット設定で複合表情へ一般化することを示す。
提案手法
- 感情分類、AU 検出、Valence-arousal 回帰を組み合わせたマルチタスク objective を定義する。
- 結合戦略を導入する:co-annotation(予測される感情ラベルの prototypical/observational な AU を強制); distribution matching(AU の分布を感情条件付きの期待値と一致させる); およびその変種(soft co-annotation、distr-matching、そしてそれらの組み合わせ)。
- 7つの感情、17のAU、そして VA 出力のためのタスク固有ヘッドを共有特徴に基づく VGG-FACE を用いたモデルアーキテクチャ。
- 三つのデータストリーム(VA-Set、AU-Set、EXPR-Set)でエンドツーエンドの最適化と部分的な注釈に対応したバッチを整列して訓練。
- 認知研究からのタスク関連性テーブルおよび経験的 Aff-Wild2 アノテーションを結合に導く指針として取り入れる。
- 複数の野外データベースに対する最先端の単一タスクネットワークおよびベースラインと比較評価する。
実験結果
リサーチクエスチョン
- RQ1単一の総合的なネットワークは expressions、AUs、valence-arousal のそれぞれについて独立して訓練された単一タスクモデルを上回ることができるか?
- RQ2結合戦略(co-annotation および distribution matching)はクロス-タスクの性能と全体的な頑健性を改善するか?
- RQ3学習した特徴はゼロショットおよび少数ショットの状況で複合表情へどの程度一般化するか?
- RQ4非均質なタスク関連性と部分的な注釈を活用することで大規模かつ多様なデータセットからの学習は有益か?
主な発見
- FaceBehaviorNet は結合損失を用いると、結合なしのベースラインよりデータベース間で一貫して性能を向上させる。
- Soft co-annotation と distribution matching は共に最良の平均改善を生み出し、単一戦略のアブレーションより平均で2%以上の性能向上を示す。
- Joint training は valence-arousal、basic expressions、AUs のすべての評価データベースで単一タスクネットワークを上回る。
- 結合損失を用いた場合、Aff-Wild、AffectNet、RAF-DB、EmotioNet、DISFA、BP4D、BP4D+ に対して競合的または優れた性能を達成。
- ゼロショットおよび少数ショットの分析は、FaceBehaviorNet が限られた追加訓練データで複合表情をサポートする転送可能な特徴を学習することを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。