QUICK REVIEW

[論文レビュー] A Deep Learning Perspective on the Origin of Facial Expressions

Ran Breuer, Ron Kimmel|arXiv (Cornell University)|May 4, 2017

Face recognition and analysis参考文献 48被引用数 95

ひとこと要約

この論文はCNNベースの表情認識（FER）を視覚化と組み合わせて学習特徴をEkmanのFACSに結びつけ、データセット間/タスク間の移植性を示し、LSTMを用いたマイクロ表情検出で最先端の結果を達成します。

ABSTRACT

Facial expressions play a significant role in human communication and behavior. Psychologists have long studied the relationship between facial expressions and emotions. Paul Ekman et al., devised the Facial Action Coding System (FACS) to taxonomize human facial expressions and model their behavior. The ability to recognize facial expressions automatically, enables novel applications in fields like human-computer interaction, social gaming, and psychological research. There has been a tremendously active research in this field, with several recent papers utilizing convolutional neural networks (CNN) for feature extraction and inference. In this paper, we employ CNN understanding methods to study the relation between the features these computational networks are using, the FACS and Action Units (AU). We verify our findings on the Extended Cohn-Kanade (CK+), NovaEmotions and FER2013 datasets. We apply these models to various tasks and tests using transfer learning, including cross-dataset validation and cross-task performance. Finally, we exploit the nature of the FER based CNN models for the detection of micro-expressions and achieve state-of-the-art accuracy using a simple long-short-term-memory (LSTM) recurrent neural network (RNN).

研究の動機と目的

Automatic facial expression recognition（自動表情認識）とEkmanのFACS（AUフレームワーク）との関係を動機づける。
CNNがFERで学習する特徴とこれらの特徴がAUとどう関係するかを調べる。
CNN由来の特徴のデータセット間・タスク間の一般化を転移学習で示す。
FER由来の特徴をマイクロ表情検出に適用し、性能を評価する。

提案手法

従来の3ブロックCNNを実装（5×5フィルタの3つの畳み込みブロック、ReLU、2×2プーリング、マップ数は64/128/256）に続いて512ニューロンの全結合層と出力層（感情は8クラス）。
ADAM（lr=1e-3、減衰=1e-5）を用いたドロップアウト（最後の畳み込み層後0.25、FC層間0.5）で訓練。
一般化を向上させるためのデータ拡張（反転、アフィン変換）を使用。
デコンボリューション/ガイド付きバックプロパゲーションで学習したフィルターを視覚化し、活性化を顔領域とEkmanのAUに関連づける。
転移学習によるデータセット横断・タスク横断一般化を評価（畳み込み層を凍結し、出力を再訓練）。
CK+、NovaEmotions、FER2013で評価；従来のFER手法と比較して精度が高いことを示す。

実験結果

リサーチクエスチョン

RQ1感情認識のために訓練されたCNNはEkmanのアクションユニットに対応するフィルターを開発するか。
RQ2一つのFERデータセットで学習したCNN特徴は他のデータセットや関連タスク（AU検出、感情分類）に一般化できるか。
RQ3FERベースのCNN特徴は時間モデル（LSTM）と組み合わせるとマイクロ表情検出を改善できるか。
RQ4CNN特徴から得られるAUレベルの解釈性とスパーシティの程度はいくらか。

主な発見

方法	精度
Gabor+SVM [Littlewort 2006]	89.8%
LBP-SVM [Shan 2009]	95.1%
AUDN [Liu 2015]	93.70%
BDBN [Liu 2014]	96.7%
私たちの手法	98.62% ± 0.11%
表1：CK+データセットにおける感情分類の精度評価。

CNNの視覚化は、複数のEkman AUと相関するフィルターを明らかにする（例：AU4、AU5、AU9、AU10、AU12、AU25）。
CK+の感情分類で著者のモデルは98.62% ± 0.11%の精度を達成し、いくつかの従来法を上回る。
FER2013ではモデルの精度は72.1%で、強力なベースラインと同等。データセット間の転移性も顕著で（CK+からFER2013：69.3%、FER2013からCK+：92.0%）。
AU検出はスパースCNN特徴により二値AU存在で97.54%の精度、強度予測でMSE 0.2045の96.1%を達成。
CASME IIでのCNN+LSTMを用いたマイクロ表情検出は59.47%の精度を達成し、LBP-TOPのベースラインを上回る。
転移タスクの一般化性は、CNNが学習するFACS様特徴がFER関連タスクとデータセット間でよく一般化することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。