QUICK REVIEW

[論文レビュー] Face Attribute Prediction Using Off-the-Shelf CNN Features

Yang Zhong, Josephine Sullivan|arXiv (Cornell University)|Feb 12, 2016

Face recognition and analysis参考文献 19被引用数 25

ひとこと要約

本論文では、FaceNet や VGG-Face などの顔認識モデルから得られる、中間的空間表現を含む市販の事前学習済み CNN 特徴量を、顔属性予測に使用することを提案する。エンドツーエンドのネットワークを訓練せずにこれらの特徴量を活用することで、LFWA および CelebA データセットにおいて最先端の性能を達成した。これは、空間的詳細が豊富な中間レベルの特徴量が、高レベルの特徴量よりも顔属性予測に有効であることを示している。

ABSTRACT

Predicting attributes from face images in the wild is a challenging computer vision problem. To automatically describe face attributes from face containing images, traditionally one needs to cascade three technical blocks --- face localization, facial descriptor construction, and attribute classification --- in a pipeline. As a typical classification problem, face attribute prediction has been addressed using deep learning. Current state-of-the-art performance was achieved by using two cascaded Convolutional Neural Networks (CNNs), which were specifically trained to learn face localization and attribute description. In this paper, we experiment with an alternative way of employing the power of deep representations from CNNs. Combining with conventional face localization techniques, we use off-the-shelf architectures trained for face recognition to build facial descriptors. Recognizing that the describable face attributes are diverse, our face descriptors are constructed from different levels of the CNNs for different attributes to best facilitate face attribute prediction. Experiments on two large datasets, LFWA and CelebA, show that our approach is entirely comparable to the state-of-the-art. Our findings not only demonstrate an efficient face attribute prediction approach, but also raise an important question: how to leverage the power of off-the-shelf CNN representations for novel tasks.

研究の動機と目的

市販の事前学習済み顔認識モデルから得られる CNN 特徴量が、多様な顔属性を効果的に予測できるかどうかを調査すること。
事前学習済みネットワークのどの層と特徴量タイプ（空間的、全結合）が、属性予測において最高のパフォーマンスを発揮するかを特定すること。
中間的空間特徴量と高レベルの全結合特徴量を比較し、顔属性予測における性能差を評価すること。
微調整なしで FaceNet や VGG-Face などの事前学習モデルを用いて、ゼロショットまたはフェイントショットの属性予測に有効であるかを評価すること。
従来の顔検出と事前学習特徴量を組み合わせた単純なパイプラインが、複雑な2段階のエンドツーエンド CNN と同等の性能を発揮できるかを検討すること。

提案手法

本手法は、従来の顔検出、市販の事前学習済み CNN からの特徴抽出、属性分類器の学習という3段階のパイプラインを採用する。
事前学習モデル（FaceNet、VGG-Face）を用いて、空間的特徴マップ（3×3 および 1×1）と全結合層（FC1、FC2）を含む複数の層からの特徴量を抽出する。
各属性について、異なるネットワーク層からの特徴表現の中で最もパフォーマンスの良いものを選択し、最終的な記述子を構築する。
CNN の重みを固定し、抽出された特徴量上でのみ最終的な属性分類器を学習することで、エンドツーエンドの学習を回避する。
入力サイズや全結合層の次元数が異なる複数の事前学習アーキテクチャを用いて、LFWA および CelebA データセットで実験を実施する。
アブレーションスタディでは、特徴量タイプ（空間的 vs. 全結合）とモデルバリアントを比較し、最適な特徴源を同定する。

実験結果

リサーチクエスチョン

RQ1市販の事前学習済み顔認識モデルの CNN 特徴量を用いて、微調整なしで顔属性予測において最先端の性能を達成できるか？
RQ2事前学習済み CNN のどの層タイプ（空間的特徴マップ vs. 全結合層）が、多様な顔属性を予測するのに最も効果的か？
RQ3深層のより中間的な空間表現を用いることで、高レベルの特徴量よりも属性予測の性能が向上するか？
RQ4CNN の受容野サイズが、市販の特徴量を用いた属性予測の性能に与える影響は何か？
RQ5従来の顔検出と事前学習 CNN 特徴量を組み合わせた単純なパイプラインが、複雑な2段階のエンドツーエンド CNN と同等の性能を発揮できるか？

主な発見

最も優れたパフォーマンスを示した特徴表現は、中間的空間特徴量（3×3 および 1×1 の空間マップ）であり、40 個の属性の 75% 以上で高レベルの全結合特徴量を上回った。
市販の VGG-Face モデルの中間的空間特徴量が、全モデルで最高の平均正答率（86%）を達成し、自らの FC2 層をも上回った。
平均して、3×3 および 1×1 特徴マップからの空間的表現は 86% の正答率を達成し、FC2 層（84–85%）と同等またはそれを上回った。
「目の下のクマ」、「ぼやけた」、「口が開いている」、「肌が白い」、「細い目」などの特定の属性は、中間的空間特徴量が FC2 特徴量よりも顕著に優れた予測性能を示した。
受容野が最大（VGG-Face では 224×224）のモデルが優れた性能を示し、より大きな空間的文脈が属性予測を向上させることを示唆した。
FC 層の次元を 512 から 1024 に増加させても性能が向上しなかったため、この設定では次元数よりも特徴量の質が重要であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。