[論文レビュー] Aff-Wild2: Extending the Aff-Wild Database for Affect Recognition
論文は Aff-Wild データセットを Aff-Wild2 に倍増し、458 名の被験者と 2.8M フレームを使用し、連続的な価値-覚醒 prediction のための CNN–RNN–attention アーキテクチャを提示し、RECOLA へのデータベース間転移で強力な性能を達成している。
Automatic understanding of human affect using visual signals is a problem that has attracted significant interest over the past 20 years. However, human emotional states are quite complex. To appraise such states displayed in real-world settings, we need expressive emotional descriptors that are capable of capturing and describing this complexity. The circumplex model of affect, which is described in terms of valence (i.e., how positive or negative is an emotion) and arousal (i.e., power of the activation of the emotion), can be used for this purpose. Recent progress in the emotion recognition domain has been achieved through the development of deep neural architectures and the availability of very large training databases. To this end, Aff-Wild has been the first large-scale "in-the-wild" database, containing around 1,200,000 frames. In this paper, we build upon this database, extending it with 260 more subjects and 1,413,000 new video frames. We call the union of Aff-Wild with the additional data, Aff-Wild2. The videos are downloaded from Youtube and have large variations in pose, age, illumination conditions, ethnicity and profession. Both database-specific as well as cross-database experiments are performed in this paper, by utilizing the Aff-Wild2, along with the RECOLA database. The developed deep neural architectures are based on the joint training of state-of-the-art convolutional and recurrent neural networks with attention mechanism; thus exploiting both the invariant properties of convolutional features, while modeling temporal dynamics that arise in human behaviour via the recurrent layers. The obtained results show premise for utilization of the extended Aff-Wild, as well as of the developed deep neural architectures for visual analysis of human behaviour in terms of continuous emotion dimensions.
研究の動機と目的
- Aff-Wild データベースを拡張して変動性と規模を増やし Aff-Wild2 にする(より多くの被験者、より多くのフレーム、多様な条件)。
- wild での連続的な価値-覚醒推定のためのエンドツーエンドの深層アーキテクチャ (CNN–RNN with attention) を開発。
- RECOLA でファインチューニングして最先端モデルと比較することによるデータベース間一般化を評価。
- large face datasets での事前学習が感情予測性能にどのように影響するかを分析。
提案手法
- Aff-Wild2 を Aff-Wild に260 本のビデオ(1,413,000 フレーム)を追加して、458 名の被験者にわたって 558 ビデオと 2,786,201 フレームを構成。
- 4 名の専門家による連続的な時刻スタンプ付きの価値-覚醒のアノテーションを作成し、MAIC ベースの最終ラベルを得るためにアノテーション後処理を実施。
- フレーム中の顔を検出し、CNN 用に 96×96×3 入力へ正規化。
- CNN バックボーン(VGGFACE、VGGFACE2、DenseNet-121;該当データセットで事前学習済み)と RNN 変種(LSTM、GRU、indRNN)を、128 ユニットの 2 つの隠れ RNN 層で試す。
- RNN の上にアテンション層を組み込み、損失として L_total = 1 - (ρ_a + ρ_v)/2 を用い、ρ_a と ρ_v は覚醒と価値の CCC。
- Aff-Wild2 でのアーキテクチャを Concordance Correlation Coefficient (CCC) を性能指標として評価し、フレームベースの学習詳細(Adam オプティマイザ、バッチサイズ 320、アテンション長 32)。
実験結果
リサーチクエスチョン
- RQ1Aff-Wild2 は Aff-Wild と比較して野外での自然発生的な感情表現の頑健性とカバー範囲を改善できるか。
- RQ2Aff-Wild2 で最も性能の良い valence-arousal 予測を得られる CNN–RNN–attention の構成はどれか?
- RQ3Aff-Wild2 で訓練されたモデルは、RECOLA など他のデータセットにファインチューニング後、一般化するか?
- RQ4大規模顔データセット(VGGFACE/VGGFACE2)での事前学習が感情予測性能にどう影響するか?
主な発見
- Aff-Wild2 は 558 本のビデオ、2,786,201 フレーム、458 名の被写体(279 男性、179 女性)からなる。
- 最も良い性能を示すアーキテクチャは VGGFace-GRU-attention で、テストセットで valence CCC 0.55、arousal CCC 0.45 を達成(検証 CCC はそれぞれ 0.58, 0.48)。
- RECOLA で最良の Aff-Wild2 モデル(VGGFACE1-GRU-attention)をファインチューニングすると CCC は valence 0.547、arousal 0.304 となり、RECOLA の ResNet-GRU および AffWildNet ベースラインを上回る。
- 注意機構を取り入れた CNN–RNN モデルは、非注意バリアントよりも CCC を一貫して改善している。
- データベース間転移は、Aff-Wild2 で事前学習したモデルを RECOLA に適用すると顕著な改善を示し、提案手法の一般化能力を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。