QUICK REVIEW

[論文レビュー] CAKE: Compact and Accurate K-dimensional representation of Emotion

Corentin Kervadec, Valentin Vielzeuf|arXiv (Cornell University)|Jul 30, 2018

Emotion and Mood Recognition参考文献 12被引用数 25

ひとこと要約

本稿では、複数のデータセットを跨いで深層ニューラルネットワークを用いて学習された、3次元のコンパクトで正確な感情表現であるCAKEを提案する。3次元空間がアーザル、バレンス、ドミナランスを組み合わせたものである場合、2次元表現よりも感情認識性能が優れていることを示しており、またDNNがアーザル-バレンスに類似した構造を暗黙的に学習していることも明らかにしている。

ABSTRACT

Numerous models describing the human emotional states have been built by the psychology community. Alongside, Deep Neural Networks (DNN) are reaching excellent performances and are becoming interesting features extraction tools in many computer vision tasks.Inspired by works from the psychology community, we first study the link between the compact two-dimensional representation of the emotion known as arousal-valence, and discrete emotion classes (e.g. anger, happiness, sadness, etc.) used in the computer vision community. It enables to assess the benefits -- in terms of discrete emotion inference -- of adding an extra dimension to arousal-valence (usually named dominance). Building on these observations, we propose CAKE, a 3-dimensional representation of emotion learned in a multi-domain fashion, achieving accurate emotion recognition on several public datasets. Moreover, we visualize how emotions boundaries are organized inside DNN representations and show that DNNs are implicitly learning arousal-valence-like descriptions of emotions. Finally, we use the CAKE representation to compare the quality of the annotations of different public datasets.

研究の動機と目的

顔の表情認識におけるコンパクトで正確な感情表現の最適な次元数を調査すること。
心理学的感情モデル（例：アーザル-バレンス、ドミナランス）と深層学習の表現を橋渡しすること。
複数ドメインにまたがる、コンパクトな3次元感情埋め込み（CAKE）を構築し、公開データセットに一般化可能にすること。
異なるデータセット間での学習済み感情表現の一貫性と意味的品質を評価すること。
学習済みCAKE表現を用いて、公開データセットのアノテーション品質を定性的に評価・比較すること。

提案手法

著者らは、AffectNet、SFEW、RAFの3つの公開データセットを用いて、マルチドメインのアプローチで深層ニューラルネットワークを訓練する。
モデルは、アーザル、バレンス、ドミナランスの次元を持つ心理的円形モデルを模倣した3次元のコンパクトな埋め込み空間を学習する。
離散的 emotions、アーザル、バレンスを同時に予測するためのマルチタスク学習目的関数を用いて表現を最適化する。
学習済み特徴を2次元および3次元空間にマップするための可視化フレームワークを導入し、感情クラスタの組織の定性的分析を可能にする。
データセット間でのスケールの一貫性と比較可能性を確保するため、正規化された3次元表現（CAKE-3-Norm）を用いる。
分類精度と特徴の一貫性の観点から、CAKEを2次元のアーザル-バレンス（AV）および2次元のCAKE（CAKE-2）表現と比較する。

実験結果

リサーチクエスチョン

RQ1深層ニューラルネットワークにおける顔の感情のコンパクトな表現に必要な次元数はいくつなのか？
RQ2深層ニューラルネットワークが感情のアーザル-バレンスに類似した表現をどの程度暗黙的に学習するのか？
RQ3ドミナランスなどの第3の次元を追加することで、2次元表現と比較して感情認識性能がどのように向上するのか？
RQ4アノテーション品質にばらつきのある異なる公開データセット間で、学習済みの感情表現はどの程度一貫しているのか？
RQ5CAKE表現を用いて、データセット間の感情アノテーション品質を定性的に評価・比較できるか？

主な発見

CAKEは、コンパクトな3次元表現を用いながらも、一部の設定ではより大きなモデルを上回る感情認識性能を達成している。
AffectNet、SFEW、RAFのデータセット間で、3次元CAKE表現は感情クラスタの組織の強いついのりを示しており、特徴の学習が堅牢で一般化可能であることを示している。
感情分類のためのDNNが、AVとCAKE-2表現の類似性から、アーザル-バレンスに類似した構造を暗黙的に学習していることが裏付けられている。
ニュートラルな感情クラスは、表現空間の原点に一貫して位置しており、これは低強度のベースラインとしての役割を支持する。
可視化により、SFEWでは嫌悪と恐怖が不足していることが判明し、アノテーションの一貫性にばらつきがあることが浮き彫りになった。
CAKE-3-Normは、非正規化されたバージョンと比較して、よりバランスが取れて解釈可能な3次元空間を提供し、データセット間の比較性を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。