Skip to main content
QUICK REVIEW

[論文レビュー] Style Aggregated Network for Facial Landmark Detection

Xuanyi Dong, Yan Yan|arXiv (Cornell University)|Mar 12, 2018
Face recognition and analysis参考文献 65被引用数 54
ひとこと要約

この論文は、Style-Aggregated Network (SAN) を提案し、原画像とGANで生成されたスタイル集約顔の二重入力を利用して大きなスタイル変動下で頑健な顔特徴点検出を実現し、300-W および AFLW で最先端の成果を達成します。

ABSTRACT

Recent advances in facial landmark detection achieve success by learning discriminative features from rich deformation of face shapes and poses. Besides the variance of faces themselves, the intrinsic variance of image styles, e.g., grayscale vs. color images, light vs. dark, intense vs. dull, and so on, has constantly been overlooked. This issue becomes inevitable as increasing web images are collected from various sources for training neural networks. In this work, we propose a style-aggregated approach to deal with the large intrinsic variance of image styles for facial landmark detection. Our method transforms original face images to style-aggregated images by a generative adversarial module. The proposed scheme uses the style-aggregated image to maintain face images that are more robust to environmental changes. Then the original face images accompanying with style-aggregated ones play a duet to train a landmark detector which is complementary to each other. In this way, for each face, our method takes two images as input, i.e., one in its original style and the other in the aggregated style. In experiments, we observe that the large variance of image styles would degenerate the performance of facial landmark detectors. Moreover, we show the robustness of our method to the large variance of image styles by comparing to a variant of our approach, in which the generative adversarial module is removed, and no style-aggregated images are used. Our approach is demonstrated to perform well when compared with state-of-the-art algorithms on benchmark datasets AFLW and 300-W. Code is publicly available on GitHub: https://github.com/D-X-Y/SAN

研究の動機と目的

  • 画像スタイルの大きな内部ばらつき(例: グレースケール/カラー、照明)が特徴点の精度に影響を与える問題を動機づける。
  • GAN ベースの変換によってスタイル変動を正規化するスタイル集約アプローチを提案する。
  • 元画像とスタイル集約画像の補完的情報を活用して、頑健な特徴点検出器を訓練する。
  • 標準ベンチマーク(300-W および AFLW)での最先端性能を実証し、解析用のスタイル多様なデータセットを公開する。

提案手法

  • スタイル集約 얼굴生成モジュールと特徴点予測モジュールからなる、スタイル集約ネットワーク(SAN)の二分岐アーキテクチャを導入する。
  • スタイル集約モジュールは CycleGAN ベースの転送を用いて複数のスタイル変種を生成し、顔の周囲の静止環境を捉えるスタイル集約画像を作成する。
  • 特徴点予測モジュールは原画像とスタイル集約画像の双方を入力として受け取り、VGG-16 ベースのバックボーンで特徴を抽出し、CPM に類似した階層連結ヒートマップ回帰を用いる。
  • 二つのストリームは補完的な信念マップを生成し、三段階で統合して最終的な特徴点位置を回帰する。
  • スタイル集約プロセスは、高レベルのスタイル識別特徴をクラスタリングし、スタイルを転移させる CycleGAN を訓練することによって教師なしで学習される。
  • 訓練の詳細には、スタイル識別特徴を得るために ResNet-152 分類器をファインチューニングすること、hidden styles を発見するための k-means クラスタリング、およびアイデンティティ損失を用いた CycleGAN によるスタイル変種生成を含む。

実験結果

リサーチクエスチョン

  • RQ1現実世界での画像スタイル変動は、顔特徴点検出器の性能をどれだけ低下させるか。
  • RQ2ラベル付きのスタイル注釈がなくても、スタイル集約表現はスタイル変化に対する頑健性を向上させることができるか。
  • RQ3原画像とスタイル集約入力の組み合わせは、どちらか一方を用いた場合よりも正確な特徴点予測を生むか。
  • RQ4SAN は AFLW および 300-W のデータセットで最先端の手法と比較してどうか。
  • RQ5訓練時とテスト時のスタイルの組み合わせの違いが SAN の性能に与える影響はどの程度か。

主な発見

  • SAN は共通設定および困難な設定の両方で、300-W および AFLW データセットにおいて競争力のある、または最先端の性能を達成する。
  • 300-W において、SAN は OD 境界ボックスで顕著な改善を示し、GT ボックスでさらなる利得が見込める可能性があり、スタイル変動に対する頑健性が強いことを示す。
  • AFLW において、SAN は優れた NME 結果を達成し、AFLW-Full および AFLW-Front のいずれもで従来手法を上回る。
  • アブレーション研究は、元画像ストリームまたはスタイル集約ストリームのいずれかを削除すると性能が低下することを示し、二ストリームアプローチの利点を裏付ける。
  • スタイル集約モジュールは教師なしで訓練でき、隠れたスタイルを自動的に発見できるため、さまざまなデータセットに対して頑健なスタイル正規化を提供する。
  • SAN は訓練時とテスト時のスタイルが大きく異なる場合でも頑健であり、完全な 300-W Style テストでスタイルが分岐する場合の平均的改善は約7%程度である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。