QUICK REVIEW

[論文レビュー] Convolutional Neural Networks for Facial Expression Recognition

Shima Alizadeh, Azar Fazel|arXiv (Cornell University)|Apr 22, 2017

Face and Expression Recognition参考文献 10被引用数 79

ひとこと要約

本論文は、48x48のグレースケール顔画像で7つの感情を分類するために、浅いCNNと深いCNNを訓練し、生データピクセルのCNNとハイブリッドCNN+HOGアプローチを比較し、性能・可視化・過学習の緩和を分析する。

ABSTRACT

We have developed convolutional neural networks (CNN) for a facial expression recognition task. The goal is to classify each facial image into one of the seven facial emotion categories considered in this study. We trained CNN models with different depth using gray-scale images. We developed our models in Torch and exploited Graphics Processing Unit (GPU) computation in order to expedite the training process. In addition to the networks performing based on raw pixel data, we employed a hybrid feature strategy by which we trained a novel CNN model with the combination of raw pixel data and Histogram of Oriented Gradients (HOG) features. To reduce the overfitting of the models, we utilized different techniques including dropout and batch normalization in addition to L2 regularization. We applied cross validation to determine the optimal hyper-parameters and evaluated the performance of the developed models by looking at their training histories. We also present the visualization of different layers of a network to show what features of a face can be learned by CNN models.

研究の動機と目的

自動的な表情認識を7つの感情カテゴリへ分類するため、深さの異なるCNNアーキテクチャを開発する。
深さ・正則化・データ拡張が精度と一般化に与える影響を評価する。
CNNの出力とHOG特徴を組み合わせることで性能が向上するかを調べる。
学習された特徴や活性化マップを可視化して、CNNが表情について何を捉えているかを解釈する。

提案手法

Torchで、可設定なConv/FC層・バッチノーマライゼーション・ドロップアウト・max-poolingを備えた浅い・深いCNNアーキテクチャを実装する。
約29kの訓練画像（48x48グレースケール）を3ウェイのデータ分割で学習させ、正規化と水平方向反転を拡張として適用する。
FC層の前にCNN特徴とHOG特徴を結合するハイブリッド特徴アプローチを実験する。
検証精度とテスト精度で評価し、混同行列と表情ごとの精度を分析する。
活性化マップと第一層の重みを可視化し、最良モデルにDeepDreamを適用してパターンを発見する。

実験結果

リサーチクエスチョン

RQ1Kaggleの7感情データセットにおけるCNNの深さを増やすことが、表情認識精度にどのような影響を与えるか？
RQ2浅いネットワークと比較して、より深いCNNは表情ごとの分類精度を改善するか？
RQ3CNN特徴とHOG特徴を統合することで、生のピクセルだけを用いる場合より認識性能が向上するか？
RQ4活性化マップ・重みの可視化・DeepDreamは、学習された顔特徴から何を明らかにできるか？

主な発見

表情	浅いモデル	深いモデル
Angry	41%	53%
Disgust	32%	70%
Fear	54%	46%
Happy	75%	80.5%
Sad	32%	63%
Surprise	67.5%	62.5%
Neutral	39.9%	51.5%

深いCNNは浅いネットワークより精度を大幅に向上させる（検証: 65% vs 55%; テスト: 64% vs 54%）。
より深いネットワークは過学習を抑制し、正則化技術（ dropout、batch norm、L2）を活用すると恩恵を受ける。
表情ごとの精度は一般に深さとともに向上し、特にHappyは浅いモデル75%に対して深いモデル80.5%となる。NeutralとAngryは改善を示す一方、Surprise/Fearのような一部の表情は深さによって改良されない可能性がある。
ハイブリッドCNN+HOG特徴は、生データピクセルのCNNを上回らない（浅い・深いモデルの双方で精度はほぼVanilla CNNと同等）。
混同行列は、両モデルにおけるよくある誤分類（例: AngryがFear/Sadと混同）を示す；DeepCNNはほとんどのラベルで正解予測が多い。
活性化マップは訓練とともによりスパースで局在化し、第一層のフィルタは滑らかに見える。最良モデルにDeepDreamを適用すると表情固有のパターンが明らかになる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。