[論文レビュー] Affect Analysis in-the-wild: Valence-Arousal, Expressions, Action Units and a Unified Framework
この論文は AffWildNet と野外における統一的なマルチタスクフレームワークを紹介し、Aff-Wild および Aff-Wild2 データベースを用いて valence/arousal、表情、アクションユニットを対象とする野外の感情分析を扱い、広範なマルチタスクとマルチコンポーネントアーキテクチャ、およびベンチマーク結果を示す。
Affect recognition based on subjects' facial expressions has been a topic of major research in the attempt to generate machines that can understand the way subjects feel, act and react. In the past, due to the unavailability of large amounts of data captured in real-life situations, research has mainly focused on controlled environments. However, recently, social media and platforms have been widely used. Moreover, deep learning has emerged as a means to solve visual analysis and recognition problems. This paper exploits these advances and presents significant contributions for affect analysis and recognition in-the-wild. Affect analysis and recognition can be seen as a dual knowledge generation problem, involving: i) creation of new, large and rich in-the-wild databases and ii) design and training of novel deep neural architectures that are able to analyse affect over these databases and to successfully generalise their performance on other datasets. The paper focuses on large in-the-wild databases, i.e., Aff-Wild and Aff-Wild2 and presents the design of two classes of deep neural networks trained with these databases. The first class refers to uni-task affect recognition, focusing on prediction of the valence and arousal dimensional variables. The second class refers to estimation of all main behavior tasks, i.e. valence-arousal prediction; categorical emotion classification in seven basic facial expressions; facial Action Unit detection. A novel multi-task and holistic framework is presented which is able to jointly learn and effectively generalize and perform affect recognition over all existing in-the-wild databases. Large experimental studies illustrate the achieved performance improvement over the existing state-of-the-art in affect recognition.
研究の動機と目的
- 大規模な野外データセットを用いて unconstrained real-world settings における頑健な感情認識を動機づける。
- 次元的(valence/arousal)、カテゴリ表現、アクションユニットに jointly モデル可能な深層学習アーキテクチャを開発する。
- Aff-Wild、Aff-Wild2 などの野外データベースを作成・活用し、感情認識システムを訓練・一般化させる。
提案手法
- CNN特徴と時系列モデル(RNNs/GRUs)を融合する uni-task(次元的)および multi-task 全体最適化アーキテクチャを提案する。
- AffWild を用いた valence/arousal 推定のための CNN-RNN 終端ネットワークとして AffWildNet を導入し、CCC ベースの損失 (L_total = 1 - 0.5*(rho_a + rho_v)) を用いて訓練する。
- 低位・中位・高位の CNN 特徴を別々の RNN で活用し、それらを統合する multi-component CNN+multi-RNN 設計(CNN-3RNN および CNN-1RNN)を強化する。
- CNN特徴とランドマーク 68 点を結合して時間的モデリングを改善するランドマークベースの特徴拡張を導入する。
- モデルレベルとディシジョンレベルのアンサンブルを探索し、 valence/arousal の予測を向上させ、後処理(メディアンフィルタリング、平滑化)を適用する。
- Aff-Wild2 で事前訓練し、OMG-Emotion データセットの発話レベル注釈特性に適応させる。
実験結果
リサーチクエスチョン
- RQ1大規模な野外顔面表情データセット(Aff-Wild、Aff-Wild2)をどのように活用して valence-arousal 推定、表情、アクションユニット検出を改善できるか?
- RQ2統一的なマルチタスクフレームワークは、次元的・カテゴリ的・AU ベース表現を同時に学習して、野外での単一タスクモデルを上回ることができるか?
- RQ3多段階 CNN特徴を統合しランドマークを活用する multi-component CNN+RNN アーキテクチャは、時系列感情推定を改善するか?
- RQ4モデルレベルの融合とディシジョンレベルの融合が野外での valence/arousal の予測精度に与える影響はどれほどか?
- RQ5Aff-Wild2 で事前訓練したモデルは他の感情データセット(例:OMG-Emotion)や関連タスクへ一般化できるか?
主な発見
| モデル | Valence CCC | Arousal CCC | Mean CCC | Valence MSE | Arousal MSE | Mean MSE |
|---|---|---|---|---|---|---|
| FATAUVA-Net | 0.40 | 0.28 | 0.34 | 0.12 | 0.10 | 0.11 |
| VGG-16 | 0.40 | 0.30 | 0.35 | 0.13 | 0.11 | 0.12 |
| ResNet-50 | 0.43 | 0.30 | 0.37 | 0.11 | 0.11 | 0.11 |
| VGG-FACE | 0.51 | 0.33 | 0.42 | 0.10 | 0.08 | 0.09 |
| VGG-FACE-LSTM | 0.52 | 0.38 | 0.45 | 0.10 | 0.09 | 0.10 |
| AffWildNet | 0.57 | 0.43 | 0.50 | 0.08 | 0.06 | 0.07 |
- AffWildNet は評価対象のアーキテクチャの中で valence/arousal に対する最先端 CCC スコアを達成(AffWildNet は FATAUVA-Net および他のベースラインを上回る)。
- マルチレイヤー CNN特徴を別々の RNN で活用する multi-component CNN+RNN アーキテクチャ(CNN-3RNN、CNN-1RNN)は、単一 RNN アプローチより次元的感情推定を改善する。
- RNN ベースの融合モジュールを用いたモデルレベルの融合は、ディシジョンレベル融合や FC ベースの融合より valence/arousal の性能を向上させる。
- Aff-Wild2 での事前訓練と multi-component ネットワークの end-to-end 訓練は、野外データセットの性能を有意に高め、関連タスク(OMG-Emotion)へ転移する。
- Aff-Wild2 は valence/arousal、AUs、基本表情の 558 本の動画と 458 名の被写体に対する総合的な注釈を提供し、野外学習を堅牢に可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。