QUICK REVIEW

[論文レビュー] Real-time emotion recognition for gaming using deep convolutional network features

Sébastien Ouellet|arXiv (Cornell University)|Aug 16, 2014

Emotion and Mood Recognition参考文献 12被引用数 38

ひとこと要約

本論文は、微調整を行わず、ImageNetで事前学習された畳み込みニューラルネットワーク（CNN）特徴量を用いて、リアルタイムの感情認識システムをゲーム用途に提案する。事前学習されたCNNの第5層および第6層から特徴量を抽出し、CK+データセット上でSVMで分類することで、感情1つあたり1枚の静止画のみを用いても94.4％の精度を達成し、感情認識への高い転移性とリアルタイム実装可能性を示している。

ABSTRACT

The goal of the present study is to explore the application of deep convolutional network features to emotion recognition. Results indicate that they perform similarly to other published models at a best recognition rate of 94.4%, and do so with a single still image rather than a video stream. An implementation of an affective feedback game is also described, where a classifier using these features tracks the facial expressions of a player in real-time.

研究の動機と目的

事前学習された深層CNN特徴量が、タスク固有の微調整なしに感情認識に効果的に一般化できるかどうかを調査すること。
顔の感情認識を用いて、ゲーム用のリアルタイム感情フィードバックシステムを開発すること。
CK+データセットを用いて、物体認識から顔の感情分類への転移学習の性能を評価すること。
顔検出および画像前処理の有無が、感情認識精度に与える影響を評価すること。
高次元のCNN特徴量における、異なるカーネルタイプ（線形、多項式、RBF）の性能を比較すること。

提案手法

ImageNetで事前学習された深層畳み込みニューラルネットワーク（CNN）を用い、再トレーニングなしに顔画像からの特徴量を抽出する。
CNNの第5層および第6層から高レベル特徴量を抽出し、それぞれ9126次元および4096次元の特徴量を出力する。
特徴量抽出の前にViola-Jones顔検出器を適用して顔を局所化することで、耐障害性を向上させる。
すべての画像に対してグレースケール変換を適用して入力を標準化し、色情報よりも性能が向上することを確認した。
抽出された特徴量上で、線形、多項式、および径路基底関数（RBF）カーネルを用いたサポートベクターマシン（SVM）分類器をトレーニングする。
CK+データセットを用いて性能を評価し、各感情シーケンスの頂点（ピーク）フレームに焦点を当てて、表現の明確さを最大化する。

実験結果

リサーチクエスチョン

RQ1物体認識タスクで事前学習された深層CNN特徴量が、微調整なしに顔の感情認識で高い精度を達成できるか？
RQ2顔検出の導入が、眼鏡などの被覆がある場合を含め、感情認識性能に与える影響は何か？
RQ3高次元のCNN特徴量における、線形、多項式、RBFカーネルのうち、どのカーネルタイプが感情分類で最も優れた性能を示すか？
RQ4異なる感情カテゴリ（例：恐怖、悲しみ）の性能レベルにはどのような差があり、その原因は何か？
RQ51枚の静止画で動画ベースの手法と同等の性能を達成できるか？また、これはリアルタイムゲームアプリケーションに十分か？

主な発見

本システムは、感情シーケンスの頂点フレームのみを用いても94.4％の認識精度を達成し、最小限の入力で優れた性能を示している。
顔検出の導入により、特に眼鏡をかけた被験者に対して耐障害性が著しく向上し、そうでない場合に誤分類（例：嫌悪が目的の感情と誤認知）が多発していたのを是正した。
CNN特徴量の高次元性のため、非線形変換の必要が少なく、線形カーネルが多項式およびRBFカーネルを上回る性能を示した。
第5層特徴量（9126次元）が第6層特徴量（4096次元）を上回り、第7層は性能をさらに低下させるため除外された。
恐怖（52％）や悲しみ（60.7％）といった感情は、CK+データセットに訓練インスタンスが少ないことが原因で、認識率が低かった。
専用モデルに匹敵する最先端の性能を達成したが、再トレーニングゼロおよび1枚の静止画入力という利点を有している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。