Skip to main content
QUICK REVIEW

[論文レビュー] Heterogeneous Face Attribute Estimation: A Deep Multi-Task Learning Approach

Hu Han, Anil K. Jain|arXiv (Cornell University)|Jun 3, 2017
Face recognition and analysis被引用数 26
ひとこと要約

本稿では、年齢、性別、人種、顔面特徴など、多様な顔属性を、共有およびカテゴリ固有の特徴学習を通じて属性間相関と異種性(順序尺度対名義尺度、全体的対局所的)をモデル化することで、同時に推定するための深層マルチタスク学習(DMTL)フレームワークを提案する。この手法は、複数のベンチマークで最先端の性能を達成しており、MORPH IIでは人種分類で98.6%、年齢推定で85.3%の精度(MAE 3.0)を達成し、リアルタイム推論が可能である。

ABSTRACT

Face attribute estimation has many potential applications in video surveillance, face retrieval, and social media. While a number of methods have been proposed for face attribute estimation, most of them did not explicitly consider the attribute correlation and heterogeneity (e.g., ordinal vs. nominal and holistic vs. local) during feature representation learning. In this paper, we present a Deep Multi-Task Learning (DMTL) approach to jointly estimate multiple heterogeneous attributes from a single face image. In DMTL, we tackle attribute correlation and heterogeneity with convolutional neural networks (CNNs) consisting of shared feature learning for all the attributes, and category-specific feature learning for heterogeneous attributes. We also introduce an unconstrained face database (LFW+), an extension of public-domain LFW, with heterogeneous demographic attributes (age, gender, and race) obtained via crowdsourcing. Experimental results on benchmarks with multiple face attributes (MORPH II, LFW+, CelebA, LFWA, and FotW) show that the proposed approach has superior performance compared to state of the art. Finally, evaluations on a public-domain face database (LAP) with a single attribute show that the proposed approach has excellent generalization ability.

研究の動機と目的

  • 既存の顔属性推定手法が特徴学習において属性間相関と異種性を無視するという限界に対処すること。
  • 単一の顔画像から、順序尺度、名義尺度、全体的、局所的といった多様な属性タイプを同時に推定可能な統合的ディープラーニングフレームワークの開発。
  • 監視なしの顔データベースLFW+を新たに構築し、クラウドソーシングを用いて年齢、性別、人種などのデモグラフィック属性をアノテート。
  • 多様なデータベースおよびテストシナリオ(クロスデータベース、クロス属性設定など)における一般化性能の評価。
  • 監視、リトリーブ、ソーシャルメディア応用における実用的展開を想定した、高い精度とリアルタイム推論速度の実現。

提案手法

  • 共有特徴学習スティームとして、バッチ正規化を適用した変更版AlexNetを用い、全属性にわたる一般特徴を抽出。
  • 共有トランクの直後にカテゴリ固有のサブネットワークを組み込み、異なる属性タイプ(例:順序尺度対名義尺度、全体的対局所的)に特化した特徴学習を実現。
  • 異なる属性の複数の損失関数を同時に最適化することで、属性間相関を捉えたエンド・ツー・エンド学習を可能に。
  • 属性の異種性は、異なる意味的・スケール的タイプ(例:人種対年齢)に特化した別個のサブネットワークを設計することで明示的にモデル化。
  • 異種属性間の勾配をバランスさせるマルチタスク学習目的関数を用い、ロバストネスと一般化性能の向上を図る。
  • LFWに2,466枚の0〜20歳の被験者画像を追加し、クラウドソーシングによるデモグラフィック属性アノテーションを実施することで、新しいデータベースLFW+を構築。
Figure 1: Individual face attributes have both correlation and heterogeneity. While attribute correlation can be utilized to improve the robustness of attribute estimation, attribute heterogeneity should also be tackled by designing appropriate prediction models.
Figure 1: Individual face attributes have both correlation and heterogeneity. While attribute correlation can be utilized to improve the robustness of attribute estimation, attribute heterogeneity should also be tackled by designing appropriate prediction models.

実験結果

リサーチクエスチョン

  • RQ1属性間相関と異種性をモデル化することで、年齢、性別、人種、顔面特徴などの異種顔属性を統合的かつ高精度に同時に推定できるか?
  • RQ2提案手法であるDMTLは、複数の異種属性を有する多様なベンチマークで、最先端の手法と比較してどのように性能を発揮するか?
  • RQ3モデルは、未観測のデータベースやクロスデータベーステストシナリオにどの程度一般化できるか?
  • RQ4実用的展開環境において、高い精度とリアルタイム推論速度を維持できるか?
  • RQ5属性の異種性(例:順序尺度対名義尺度、全体的対局所的)は、共同属性推定モデルの性能と設計にどのように影響を与えるか?

主な発見

  • 提案されたDMTL手法は、MORPH IIデータセットで人種分類に98.6%、年齢推定に85.3%(MAE 3.0)の精度を達成し、最先端手法を上回った。
  • LFW+データセットでは、性別分類で96.7%、人種分類で94.9%の精度を達成し、0〜20歳という多様な年齢範囲でも高い性能を示した。
  • クロスデータベーステストでは、モデルの一般化性能が顕著に現れた。MORPH IIで学習しLFW+でテストした場合、年齢分類で77.4%、人種分類で70.5%の精度を達成し、ドメインシフトに対してもロバストであることが示された。
  • Titan X GPUでは8ms、CPUでは35msの推論時間で実行可能であり、コンsumerデスクトップで約16fpsのリアルタイム推論が可能で、先行手法を上回る速度と精度を達成した。
  • CelebAでは40属性平均で93.0%、LFWAでは86.0%の精度を達成し、個別モデルや先行マルチタスク手法と比較して一貫した向上が確認された。
  • アブレーションスタディの結果、属性間相関と異種性の両方をモデル化することで性能が顕著に向上し、特にクロスデータベースおよびクロス属性設定において顕著であった。
Figure 2: Overview of the proposed deep multi-task learning (DMTL) network consisting of an early-stage shared feature learning for all the attributes, followed by category-specific feature learning for heterogeneous attribute categories. We use a modified AlexNet [ 11 ] with a batch normalization (
Figure 2: Overview of the proposed deep multi-task learning (DMTL) network consisting of an early-stage shared feature learning for all the attributes, followed by category-specific feature learning for heterogeneous attribute categories. We use a modified AlexNet [ 11 ] with a batch normalization (

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。