QUICK REVIEW

[論文レビュー] Understanding and Comparing Deep Neural Networks for Age and Gender Classification

Sebastian Lapuschkin, Alexander Binder|arXiv (Cornell University)|Aug 25, 2017

Face recognition and analysis参考文献 36被引用数 34

ひとこと要約

この論文は、Adienceベンチマークを用いて、深層ニューラルネットワークにおける年齢および性別分類におけるモデルの初期化、前処理、アーキテクチャの影響を調査する。Layer-wise Relevance Propagation (LRP) を適用して特徴の重要度を可視化することで、ImageNetでの事前学習が包括的な特徴の使用を可能にし、耐障害性を向上させることを示し、単純な前処理と微調整されたモデルを用いて、最先端の性別分類精度（90.0%）を達成した。

ABSTRACT

Recently, deep neural networks have demonstrated excellent performances in recognizing the age and gender on human face images. However, these models were applied in a black-box manner with no information provided about which facial features are actually used for prediction and how these features depend on image preprocessing, model initialization and architecture choice. We present a study investigating these different effects. In detail, our work compares four popular neural network architectures, studies the effect of pretraining, evaluates the robustness of the considered alignment preprocessings via cross-method test set swapping and intuitively visualizes the model's prediction strategies in given preprocessing conditions using the recent Layer-wise Relevance Propagation (LRP) algorithm. Our evaluations on the challenging Adience benchmark show that suitable parameter initialization leads to a holistic perception of the input, compensating artefactual data representations. With a combination of simple preprocessing steps, we reach state of the art performance in gender recognition.

研究の動機と目的

モデルの初期化、前処理、アーキテクチャがDNNの年齢および性別分類性能に与える影響を理解すること。
画像前処理のアーティファクトがモデルの汎化性および耐障害性に与える影響を調査すること。
Layer-wise Relevance Propagation (LRP) を用いて、モデルの意思決定を可視化し解釈すること。
複数のアーキテクチャにおいて、ランダム初期化と事前学習済み重み初期化の有効性を比較すること。
最適化された前処理と初期化を用いて、Adienceベンチマークにおける性別分類で最先端の性能を達成すること。

提案手法

本研究では、Adienceベンチマーク上で4つのDNNアーキテクチャ（CaffeNet、GoogleNet、VGG-16、ResNetベースのモデル）を評価した。
ImageNetの重み、IMDB-WIKIの重み（年齢推定用）およびランダム初期化の3つの初期化方法を比較した。
前処理には回転アライメント、顔の平面内アライメント、テストセットの入れ替えを含め、前処理の不一致に対する耐障害性を評価した。
ピクセル単位での予測に寄与する顔領域を可視化するために、Layer-wise Relevance Propagation (LRP) を用いた。
Adienceデータセットにおいて5分割交差検証を実施し、年齢および性別分類の精度を報告した。
モデルの耐障害性を評価するために、テストセットの入れ替えを実施した：訓練時にある前処理を用いたモデルを、別の前処理を施したテストセットで評価することで、前処理アーティファクトへの過学習を検出した。

実験結果

リサーチクエスチョン

RQ1ImageNet や IMDB-WIKI での事前学習は、年齢および性別分類におけるモデル性能および特徴の利用にどのように影響するか？
RQ2訓練時とテスト時の前処理が不一致した場合（例：回転アライメント）、前処理アーティファクトがモデルの汎化性をどの程度劣化させるか？
RQ3異なるモデルアーキテクチャ（例：GoogleNet、VGG-16）は、初期化条件が異なる条件下で顔の特徴にどの程度依存するか？
RQ4LRPは、モデルが包括的な顔の特徴を用いているか、あるいは眉や耳のような孤立した特徴に過学習しているかを効果的に明らかにできるか？
RQ5どの組み合わせの前処理と初期化が、Adienceベンチマークにおける性別分類で最先端の性能を達成するか？

主な発見

ImageNetで事前学習されたGoogleNetは、性別分類において広範な顔の特徴を用いるが、ランダム初期化されたモデルは眉や唇のような孤立した特徴に過学習する。
IMDB-WIKI（年齢推定用）での事前学習により、VGG-16は年齢予測において顔の特徴に焦点を当てた表現を獲得し、背景や服への依存度が低下する。
テストセットの入れ替えにより、回転処理済みの画像で訓練されたモデルが、アライメント済みの画像でテストされた場合に顕著に性能が低下することが判明し、前処理アーティファクトへの過学習が示された。
ImageNetで事前学習されたモデルは、前処理の不一致に対して優れた耐障害性を示し、異なるアライメント手法に対しても性能が維持された。
回転アライメントとImageNet事前学習の組み合わせにより、Adienceベンチマークで性別分類精度90.0%という最先端の性能を達成した。
回転アライメント済みの画像で訓練された微調整済みモデルは、正しく前処理されたデータから再学習したモデルと同等の性能を回復しており、適切な初期化の利点を裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。