QUICK REVIEW

[論文レビュー] Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?

Pooya Khorrami, Tom Le Paine|arXiv (Cornell University)|Oct 10, 2015

Emotion and Mood Recognition参考文献 1被引用数 30

ひとこと要約

この論文は、顔の感情認識のために訓練された深層畳み込みニューラルネットワーク（CNN）が、明示的なAU監視なしに、顔の動きユニット（FAU）を暗黙的に学習していることを示している。特徴マップの可視化とフィルターアクティベーションを真値のFAUラベルと相関させることで、著者らは特定のニューロンがAUに特化した顔領域に応答することを確認した—これはCNNが生物学的に妥当な顔の運動ユニットを学習していることを裏付けている。このモデルはCK+およびTFDデータセットで最先端の性能を達成した。

ABSTRACT

Despite being the appearance-based classifier of choice in recent years, relatively few works have examined how much convolutional neural networks (CNNs) can improve performance on accepted expression recognition benchmarks and, more importantly, examine what it is they actually learn. In this work, not only do we show that CNNs can achieve strong performance, but we also introduce an approach to decipher which portions of the face influence the CNN's predictions. First, we train a zero-bias CNN on facial expression data and achieve, to our knowledge, state-of-the-art performance on two expression recognition benchmarks: the extended Cohn-Kanade (CK+) dataset and the Toronto Face Dataset (TFD). We then qualitatively analyze the network by visualizing the spatial patterns that maximally excite different neurons in the convolutional layers and show how they resemble Facial Action Units (FAUs). Finally, we use the FAU labels provided in the CK+ dataset to verify that the FAUs observed in our filter visualizations indeed align with the subject's facial movements.

研究の動機と目的

顔の感情認識のために訓練された深層CNNが、単なる外観を超えて意味のある顔特徴を学習するかどうかを調査すること。
CNNのフィルタがエクスマンのFACSで定義された生物学的に意味のある顔の動きユニット（FAU）に対応しているかどうかを特定すること。
CNNがCK+やTFDのような既存の感情認識ベンチマークで最先端の性能を達成できるかどうかを評価すること。
真値のFAUアノテーションを用いて、フィルターアクティベーションが実際の被験者の顔の動きと整合しているかどうかを検証すること。

提案手法

3層の畳み込み層（64、128、256フィルタ）を備えたゼロバイアCNNを訓練し、ReLU活性化関数とマックス/クアッドプーリングを用いて特徴抽出を行った。
第3畳み込み層の個々のフィルタを最大に刺激する空間パターンを可視化するために、デコンボリューションネットワークを用いた。
各FAUを含む・含まない訓練サンプルのアクティベーション分布を比較し、KLダイバージェンスを用いて、各フィルタに最も影響を与えるAUを同定した。
CK+データセットからのFAUラベルとフィルタービジュアライゼーションを相関させ、学習された特徴と実際の顔の動きの整合性を検証した。
拡張されたコーン＝カナンデ（CK+）およびトロント・フェイス・データセット（TFD）ベンチマーク上でモデルの性能を評価した。

実験結果

リサーチクエスチョン

RQ1顔の感情認識のために訓練された深層CNNは、明示的なAU監視がなくても、顔の動きユニット（FAU）を検出する能力を学習するのか？
RQ2CNNの最も特徴的なフィルタは、どの顔領域に反応し、それらは既知のFAUに対応しているのか？
RQ3CNNのフィルタが学習した空間パターンは、CK+データセットにラベル付けされた実際の被験者の顔の動きと意味的に関連付けられるのか？
RQ4ゼロバイアCNNアーキテクチャは、標準的な感情認識ベンチマークで最先端の性能を達成するのか？

主な発見

CNNのフィルタに可視化された空間パターンは、AU 12（唇の端を引き上げる）やAU 25/27（唇を広げる、口を引き伸ばす）といった既知の顔の動きユニット（FAU）に強く類似している。
大多数のフィルタについて、アクティベーション分布のKLダイバージェンスが最大となるFAUは、フィルタの受容野に対応する顔領域と一致しており、機能的な整合性が確認された。
フィルタ2、6、9はAU 12に対して強く感受性を示し、これは笑顔や唇の端の引き上げを検出する役割と一致している。
フィルタ8はAU 25およびAU 27に対して強く反応し、驚きの顔の「O」の形に対応しており、視覚的およびアクティベーションベースの整合性が裏付けられた。
提案されたゼロバイアCNNは、拡張されたコーン＝カナンデ（CK+）およびトロント・フェイス・データセット（TFD）ベンチマークで最先端の性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。