QUICK REVIEW

[論文レビュー] Recognizing Semantic Features in Faces using Deep Learning

Amogh Gudi|arXiv (Cornell University)|Dec 2, 2015

Face recognition and analysis参考文献 16被引用数 35

ひとこと要約

本論文では、2次元顔画像から感情、年齢、性別、人種などの意味的顔特徴を手動の特徴設計を回避して自動的に認識するための深層学習フレームワークを提案する。この手法はエンド・ツー・エンドの学習により人間に近い性能を達成し、複数の特徴を最小限の精度低下で同時に分類する能力を示し、深層ネットワークを用いて2次元画像から3次元アクティブアパーニアンモデル（AAM）を生成する画期的なアプローチを提案する。

ABSTRACT

The human face constantly conveys information, both consciously and subconsciously. However, as basic as it is for humans to visually interpret this information, it is quite a big challenge for machines. Conventional semantic facial feature recognition and analysis techniques are already in use and are based on physiological heuristics, but they suffer from lack of robustness and high computation time. This thesis aims to explore ways for machines to learn to interpret semantic information available in faces in an automated manner without requiring manual design of feature detectors, using the approach of Deep Learning. This thesis provides a study of the effects of various factors and hyper-parameters of deep neural networks in the process of determining an optimal network configuration for the task of semantic facial feature recognition. This thesis explores the effectiveness of the system to recognize the various semantic features (like emotions, age, gender, ethnicity etc.) present in faces. Furthermore, the relation between the effect of high-level concepts on low level features is explored through an analysis of the similarities in low-level descriptors of different semantic features. This thesis also demonstrates a novel idea of using a deep network to generate 3-D Active Appearance Models of faces from real-world 2-D images. For a more detailed report on this work, please see [arXiv:1512.00743v1].

研究の動機と目的

手動の特徴設計を伴わずに、感情、年齢、性別、人種などの意味的顔特徴を自動的に認識する深層学習ベースのシステムの開発。
ネットワークのハイパーパrameter、入力前処理、スケーリングが意味的顔特徴認識の分類精度に与える影響の調査。
深層ネットワークが学習する高レベルの意味的概念（例：感情）と低レベルの視覚的記述子（例：エッジ、テクスチャ）との関係の探求。
2次元顔画像から3次元アクティブアパーニアンモデル（AAM）を生成するための深層ネットワークの実用可能性の評価。

提案手法

前処理およびアラインメントを施した2次元顔画像を用いて、感情、年齢、性別、人種などの意味的特徴を分類するための深層畳み込みニューラルネットワーク（CNN）を学習。
性能向上と一般化能力の向上を目的として、決定論的な前処理および画像アラインメントを適用。
第1層の畳み込みフィルタを用いたコサイン類似度分析により、異なる意味的タスク間での低レベル特徴表現を比較。
統一された37クラスのラベルセットを用いて、複数の排他的でない顔属性を同時に予測するための統合分類ネットワークを設計。
圧縮され構造化された表現を学習することにより、2次元画像から3次元アクティブアパーニアンモデル（AAM）を生成する画期的な深層学習ベースの手法を提案。
標準的な指標を用いてネットワーク性能を評価し、統合分類精度を個別タスク用ネットワークと比較。

実験結果

リサーチクエスチョン

RQ1深層学習は、感情、年齢、性別、人種などの意味的顔特徴をエンド・ツー・エンドの方法でどのように認識できるか？
RQ2ハイパーパrameter、入力前処理、ネットワークアーキテクチャは、意味的顔特徴認識における深層ネットワークの性能にどのように影響するか？
RQ3深層ニューラルネットワーク内において、高レベルの意味的概念（例：感情）と低レベルの視覚的記述子（例：エッジ、テクスチャ）との関係は何か？
RQ41つの深層ネットワークが、最小限の性能低下で複数の排他的でない顔属性を同時に分類できるか？
RQ52次元顔画像から3次元アクティブアパーニアンモデル（AAM）を生成するための深層ネットワークを訓練することは可能か？

主な発見

深層学習モデルは、感情、年齢、性別、人種などの意味的顔特徴認識において、人間に近い性能を達成した。
前処理および画像アラインメントにより分類精度が顕著に向上し、入力の品質と一貫性の重要性が示された。
類似したタスク（例：年齢、性別、顔の毛）のための低レベル特徴マップは、第1層の重みで高いコサイン類似度を示し、共通の視覚的パターンが学習されていることが示された。
統合分類ネットワークは、個別ネットワークと比較して平均1.84%の精度低下（範囲：0.91%–4.71%）で実現され、最小限の妥協で効果的なマルチタスク学習が可能であることが証明された。
ネットワークは2次元画像から3次元アクティブアパーニアンモデル（AAM）を効果的に生成した。実際の顔ではX/Y軸方向に平均2.05°/1.56°の誤差、合成顔では2.23°/1.66°の誤差を示し、形状およびポーズ再構成の忠実度が非常に高かった。
本研究では、初めて深層ネットワークが2次元画像から直接圧縮され構造化された3次元表現（AAM）を予測できることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。