QUICK REVIEW

[論文レビュー] Age and Gender Prediction From Face Images Using Attentional Convolutional Network

AmirAli Abdolrashidi, Mehdi Minaei|arXiv (Cornell University)|Oct 8, 2020

Face recognition and analysis参考文献 25被引用数 27

ひとこと要約

本論文は、顔画像からの同時年齢および性別予測のため、注目メカニズムと残差畳み込みネットワークを組み合わせたアンサンブル深層学習フレームワークを提案する。マルチタスク学習、顔の顕著な領域（例：しわ、顔の輪郭）に注目する注目メカニズム、および予測された性別を年齢ブランチに組み込むことで、UTKFaceデータセットにおいて最先端の性能を達成し、年齢の正確度91.3%、性別の正確度96.5%を達成した。

ABSTRACT

Automatic prediction of age and gender from face images has drawn a lot of attention recently, due it is wide applications in various facial analysis problems. However, due to the large intra-class variation of face images (such as variation in lighting, pose, scale, occlusion), the existing models are still behind the desired accuracy level, which is necessary for the use of these models in real-world applications. In this work, we propose a deep learning framework, based on the ensemble of attentional and residual convolutional networks, to predict gender and age group of facial images with high accuracy rate. Using attention mechanism enables our model to focus on the important and informative parts of the face, which can help it to make a more accurate prediction. We train our model in a multi-task learning fashion, and augment the feature embedding of the age classifier, with the predicted gender, and show that doing so can further increase the accuracy of age prediction. Our model is trained on a popular face age and gender dataset, and achieved promising results. Through visualization of the attention maps of the train model, we show that our model has learned to become sensitive to the right regions of the face.

研究の動機と目的

照明、ポーズ、遮蔽などの要因による顔画像内のクラス内変動が年齢および性別予測の正確度を制限するという課題に対処する。
注目メカニズムを用いて顔の最も情報量の多い領域に焦点を当てることで、予測性能を向上させる。
年齢ブランチに性別予測を条件付き入力として組み込むことで、年齢予測の正確度を向上させる。
年齢および性別予測の両方を同時に最適化するマルチタスク学習フレームワークを構築する。
注目マップの可視化を通じて、モデルの意思決定プロセスに使用された顕著な顔の特徴を特定するモデルの解釈可能性を高める。

提案手法

目の周辺、しわ、顔の輪郭など、顔の重要な領域に動的に注目する注目メカニズムを備えた畳み込みニューラルネットワーク（Attn-CNN）を採用する。
特徴表現学習を強化するため、補完的なバックボーンモデルとして残差ネットワーク（ResNet）を統合する。
Attn-CNNとResNetの予測確率を平均化することで、最終的な分類意思決定を実現するアンサンブル戦略を採用する。
共有された畳み込み特徴量を用いて、年齢と性別を同時に予測するマルチタスク学習を実装する。
年齢予測ブランチに予測された性別埋め込みを追加して、年齢推定の性能を向上させる。
分類用にクロスエントロピー損失、年齢バケット予測用に平均絶対差を用い、UTKFaceデータセット上でエンドツーエンドにモデルを学習する。

実験結果

リサーチクエスチョン

RQ1注目メカニズムを用いて顔の最も情報量の多い領域に焦点を当えることで、年齢および性別予測の性能が向上するか？
RQ2マルチタスク学習により年齢と性別を同時に学習することで、単一タスク学習よりも高い性能が得られるか？
RQ3予測された性別を条件付き信号として年齢予測ブランチに組み込むことで、年齢推定の正確度がさらに向上するか？
RQ4注目メカニズムと残差ネットワークのアンサンブル化は、個々のモデルを上回る性能を達成するか？
RQ5注目マップは、年齢および性別予測におけるモデルの意思決定プロセスを意味のある視覚的説明として提供できるか？

主な発見

アンサンブルモデルは、年齢範囲分類で91.3%、性別分類で96.5%の正確度を達成し、個々のAttn-CNN（74.2%および55.2%）およびResNet（90.0%および96.5%）モデルを上回った。
平均年齢バケット絶対差（AABD）は0.11にまで低下し、年齢グループ推定の高精度を示した。
モデルの注目マップは、しわ、目の輪郭、顔の縁など顕著な特徴を明確に強調しており、モデルが関連する領域に注目していることを確認した。
混同行列から、予測の大部分が主対角線上に集中していることがわかった。最も高い誤差率は、30〜40歳の画像が20〜30歳に誤分類された場合に観察された。
性別予測の確率分布は、予測に高い信頼性があり、大多数のスコアが極端な値（0または1に近い）に集中しており、不確実性が低いことを示した。
性別予測を年齢ブランチに統合することで、年齢予測の正確度が顕著に向上した。これは、タスク間の相互監視の価値を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。