QUICK REVIEW

[論文レビュー] Face Alignment by Local Deep Descriptor Regression

Amit Kumar, Rajeev Ranjan|arXiv (Cornell University)|Jan 29, 2016

Face recognition and analysis参考文献 44被引用数 20

ひとこと要約

本稿では、顔のアライメントのための新しい手法であるローカルディープディスクリミネートレグレッション（LDDR）を提案する。この手法は、畳み込みニューラルネットワーク（CNN）を用いて顔の顔認識点の周囲に局所的で判別性の高い記述子を抽出し、それらを回帰することで正確な顔認識点の位置を予測する。本手法は、5つの非制約型顔データセットにおいて最先端の性能を達成し、SIFT や HOG 特徴量を用いた従来手法を上回っている。

ABSTRACT

We present an algorithm for extracting key-point descriptors using deep convolutional neural networks (CNN). Unlike many existing deep CNNs, our model computes local features around a given point in an image. We also present a face alignment algorithm based on regression using these local descriptors. The proposed method called Local Deep Descriptor Regression (LDDR) is able to localize face landmarks of varying sizes, poses and occlusions with high accuracy. Deep Descriptors presented in this paper are able to uniquely and efficiently describe every pixel in the image and therefore can potentially replace traditional descriptors such as SIFT and HOG. Extensive evaluations on five publicly available unconstrained face alignment datasets show that our deep descriptor network is able to capture strong local features around a given landmark and performs significantly better than many competitive and state-of-the-art face alignment algorithms.

研究の動機と目的

顔のアライメントにおけるグローバルディープ特徴量の限界を克服するため、微細なピクセルに特化した情報を捉えるローカル特徴記述子を開発すること。
SIFT や HOG などの従来の手作業で設計された特徴量を、ポーズ、照明、遮蔽の変化に対してより判別性が高く頑健なディープ特徴量に置き換えること。
ローカルディープ記述子を回帰ベースのフレームワークに統合し、反復的に顔認識点の予測を改善することで、顔のアライメント精度を向上させること。
複数の CNN を一つのモデルに統合することで、推論時間を短縮し、近似リアルタイム性能を実現すること。

提案手法

各顔認識点を中心とする小さな画像パッチから、ローカル特徴記述子を抽出するためのカスタム畳み込みニューラルネットワークを訓練する。これにより、ピクセル単位の局所化が可能になる。
トレーニング段階では、各顔認識点のディープ記述子を連結し、形状インデックス付きの特徴ベクトルを作成し、線形回帰により形状の増分を推定する。
反復的精錬を用いる：初期形状は平均形状から予測され、各イテレーションで学習された回帰重みを用いて、ディープ記述子に基づいて顔認識点の位置を更新する。
一般化性能を向上させるために、ランダムな回転と反転によるデータ拡張を適用し、明示的な幾何変換を伴わずにトレーニングの多様性を高める。
推論時間を短縮するため、4つの段階固有の CNN を一つの共有ネットワークに統合し、68個の顔認識点パッチをバッチ処理することで、推論時間を 80% 削減した。
ディープ記述子ネットワークは ImageNet で事前学習され、顔のアライメントデータセットで微調整されることで、局所的特徴表現が向上する。

実験結果

リサーチクエスチョン

RQ1畳み込みニューラルネットワークを、SIFT や HOG などの従来の手作業特徴量に代わる、各ピクセルまたは顔認識点に特化した局所的で一意の記述子を効果的に抽出できるように適応させることは可能か？
RQ2回帰ベースの顔のアライメントフレームワークにローカルディープ記述子を用いることで、多様な非制約型顔データセットにおいて精度が向上するか？
RQ3本手法の性能は、SIFT や HOG などの従来の手作業特徴量を用いた最先端の顔のアライメントアルゴリズムと比較して、どのように差がつくか？
RQ4データ拡張およびモデル統合技術を用いることで、リアルタイムアプリケーションにおいて高い精度を維持しつつ、推論時間をどの程度短縮できるか？

主な発見

提案されたディープ記述子ネットワークは、蓄積データで学習した場合、68点の Helen データセットで平均誤差 4.76%、LFPW で 4.67% を達成し、SIFT や HOG を用いた手法を上回った。
挑戦的な iBUG 300-W データセットでは、68点アライメントで平均誤差 11.49% を達成し、LBF や CFAN などのいくつかの従来手法を上回った。
4つの CNN を統合し、顔認識点パッチをバッチ処理することで、1枚あたりの推論時間を約 4 秒から約 0.8 秒に短縮し、近似リアルタイム性能を実現した。
回転と反転によるデータ拡張をトレーニングに適用することで、一般化性能が向上し、誤差が約 2% 減少した。これは、ディープ記述子の頑健性を示している。
Helen の 49点サブセットでは 2.36% の平均誤差を達成し、内側の顔認識点よりも難しいとされる顔の輪郭点に対しても優れた性能を示した。
ディープ記述子は非常に判別性が高く、複数の初期形状を必要としないのに対し、単一の平均形状からの初期化でも高い精度を達成できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。