QUICK REVIEW

[論文レビュー] FaceNet2ExpNet: Regularizing a Deep Face Recognition Net for Expression Recognition

Hui Ding, S. Kevin Zhou|arXiv (Cornell University)|Sep 21, 2016

Speech and Audio Processing参考文献 38被引用数 38

ひとこと要約

本論文では、事前学習済み顔認識モデル（FaceNet）の深層特徴を用いて表現認識ネットワークを正則化する二段階訓練手法FaceNet2ExpNetを提案する。高レベルニューロン応答を新たな分布関数でモデル化し、特徴レベルの正則化を適用することで、顔の表現の意味的表現を向上させる。4つの公開データセットにおいて最先端性能を達成し、従来手法を最大2.4パーセンテージポイント上回る。

ABSTRACT

Relatively small data sets available for expression recognition research make the training of deep networks for expression recognition very challenging. Although fine-tuning can partially alleviate the issue, the performance is still below acceptable levels as the deep features probably contain redun- dant information from the pre-trained domain. In this paper, we present FaceNet2ExpNet, a novel idea to train an expression recognition network based on static images. We first propose a new distribution function to model the high-level neurons of the expression network. Based on this, a two-stage training algorithm is carefully designed. In the pre-training stage, we train the convolutional layers of the expression net, regularized by the face net; In the refining stage, we append fully- connected layers to the pre-trained convolutional layers and train the whole network jointly. Visualization shows that the model trained with our method captures improved high-level expression semantics. Evaluations on four public expression databases, CK+, Oulu-CASIA, TFD, and SFEW demonstrate that our method achieves better results than state-of-the-art.

研究の動機と目的

顔の表情認識における限られた学習データの課題に対処すること。これは深層ネットワークの性能を制限する要因である。
事前学習済み顔認識ネットワークの微調整における限界、例えば過学習や被験者特有の特徴の優位性を克服すること。
知識蒸留や複雑なアーキテクチャに依存せずに、顔認識ネットワークからのドメイン知識を活用して表現特徴表現を向上させること。
特徴レベルの正則化とラベルベースの監視を組み合わせた、より優れた判別的学習を可能にする二段階訓練フレームワークの開発。

提案手法

顔認識ネットワーク（FaceNet）の微調整後に得られる特徴に基づき、表現ネットワーク内の高レベルニューロン応答をモデル化するための新しい確率的分布関数を提案する。
最初の訓練段階では、表現ネットワークの畳み込み層のみを、微調整済みFaceNetの応答に一致するように正則化する回帰損失関数を用いて訓練する。
正則化は、エントロピーが低く意味的コンテンツが豊富な、後段の中間層（例：VGG-16のpool5）で適用する。
2番目の段階では、ランダムに初期化された全結合層を追加し、表情ラベルを用いてネットワーク全体を共同で訓練することで、判別力の向上を図る。
教師ネットワークのソフトマックス出力を使用しないことで知識蒸留を回避し、代わりに中間特徴マップを正則化に用いる。
効率性を確保するため、モデルサイズは小さく（1100万パラメータ）、1台のTitan X GPUで1枚あたり3msの推論時間となる。

実験結果

リサーチクエスチョン

RQ1限られた学習データ下で、事前学習済み顔認識ネットワークからの知識が、表現特徴学習を向上させることができるか？
RQ2顔ネットワークの内部活性を用いた特徴レベルの正則化は、標準的な微調整よりも優れた表現特徴を生み出すか？
RQ3まず畳み込み層を正則化し、その後ラベルを用いて共同で訓練する二段階訓練戦略は、エンドツーエンドの微調整を上回る性能を発揮するか？
RQ4本手法は、データサイズや画像品質が異なる制約付きおよび非制約付きの表情データセットでも、優れた性能を示すか？

主な発見

CK+データセットでは、FaceNet2ExpNetが99.1%の正確度を達成し、前回の最先端（SOTA）の98.4%を顕著に上回った。
Oulu-CASIAデータセットでは、97.8%の正確度を達成し、前回SOTAの96.5%を上回った。
TFDデータセットでは、平均88.9%の正確度を達成し、前回最高の86.8%を2.1パーセンテージポイント上回った。
非制約付きSFEWデータセットでは、外部データなしで48.19%の正確度、FER2013データを追加で使用すると55.15%の正確度を達成し、後者ではランク2の手法をほぼ3%上回った。
可視化の結果、モデルは怒りに対する眉をひそめるパターンや、驚きに対する目を大きく開くパターンといった、表情固有のパターンを学習していることが示された一方で、顔中心のバイアスは最小限に抑えられた。
本手法は計算効率が高く、1台のGPUで1枚あたり3msの推論時間であり、モデルサイズも1100万パラメータと小型である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。