QUICK REVIEW

[論文レビュー] From Facial Parts Responses to Face Detection: A Deep Learning Approach

Shuo Yang, Ping Luo|arXiv (Cornell University)|Sep 22, 2015

Face recognition and analysis参考文献 33被引用数 103

ひとこと要約

本論文では、顔の部分（目、鼻、口など）の応答スコアをその空間的配置に基づいてスコア化することで、重度の隠蔽やポーズ変化に強く耐える顔検出を実現する二段階のディーブラーニングフレームワーク、Faceness-Netを提案する。FDDBベンチマークでは90.99%のリCALLを達成し、先行研究の最良手法より2.91%高いが、効率的なプロポーザル生成と精練により実用的な推論速度を維持している。

ABSTRACT

In this paper, we propose a novel deep convolutional network (DCN) that achieves outstanding performance on FDDB, PASCAL Face, and AFW. Specifically, our method achieves a high recall rate of 90.99% on the challenging FDDB benchmark, outperforming the state-of-the-art method by a large margin of 2.91%. Importantly, we consider finding faces from a new perspective through scoring facial parts responses by their spatial structure and arrangement. The scoring mechanism is carefully formulated considering challenging cases where faces are only partially visible. This consideration allows our network to detect faces under severe occlusion and unconstrained pose variation, which are the main difficulty and bottleneck of most existing face detection approaches. We show that despite the use of DCN, our network can achieve practical runtime speed.

研究の動機と目的

従来の手法が抱える障害となる重度の隠蔽や大規模なポーズ変化下での顔検出の課題に対処すること。
部分レベルのアノテーションに依存せず、属性に敏感なネットワークから暗黙的に部分応答を学習するディープラーニングベースの顔検出器を開発すること。
顔の部分応答の空間的一致性に基づく新しい「顔らしさスコア」を定式化することで、顔検出のリCALLを向上させること。
最小限のオブジェクトプロポーザル（例：1枚あたり約150個）で高い検出精度を達成するとともに、リアルタイム推論性能を維持すること。
二段階パイプラインである（1）部分応答に基づく顔プロポーザル生成、（2）マルチタスク学習によるプロポーザルの精練を含むエンドツーエンドの顔検出を実現すること。

提案手法

一般物体で訓練した属性に敏感なディープネットワークを、部分固有のバイナリ属性（例：「大きな唇」「笑顔」）でファインチューニングすることで、深層部で「部分性マップ」を生成する。
顔検出の前処理なしに、未加工の画像に対して1回の順伝播で部分性マップ（顔の部分の応答マップ）を生成する。
検出された部分の空間的配置を評価することで顔らしさスコアを計算し、一貫性のない配置（例：口が鼻の上）をペナルティ化することで、顔の類似度を評価する。
顔らしさスコアを用いて、一般物体プロポーザル（例：MCG や Edgebox）を再順序付けし、高品質で少数の顔プロポーザル（1枚あたり約150個）を生成する。
最終的な顔バウンディングボックスを、顔認識と正確な局所化を同時に実行するマルチタスクディープネットワークで精練する。
部分検出器間で最初の畳み込み層（conv1–conv5）を共有することで、計算の重複を低減し、推論速度を向上させる。

実験結果

リサーチクエスチョン

RQ1属性レベルの監視のみを用いて、明示的な部分アノテーションがなくても、ディープ畳み込みネットワークが顔の部分を検出できるか？
RQ2顔の部分応答の空間的一致性を効果的に活用することで、隠蔽やポーズ変化に強い顔検出が向上するか？
RQ3部分ベースのスコアリング機構により、顔プロポーザルのリCALLを著しく向上させつつ、必要なプロポーザル数を削減できるか？
RQ4二段階のディープラーニングパイプラインを用いて、実用的な実行速度を維持しながらSOTAの顔検出性能を達成できるか？
RQ5厳しい条件下で、提案手法はエンドツーエンド検出器と比較して、リCALL、精度、効率性の観点で優れているか？

主な発見

Faceness-NetはFDDBベンチマークで90.99%のリCALLを達成し、先行研究の最良手法より2.91ポイント高い。
1枚あたり150個のプロポーザル（全スライディングウィンドウの約0.5%）でさえ、90%以上のリCALLを達成しており、高いプロポーザル効率を示している。
部分ベースの推論機構のおかげで、顔の領域の半分以上が隠蔽されている重度の隠蔽状態でも高い性能を維持している。
部分性マップスコアに基づく顔プロポーザル生成手順は、MCGなどの一般物体プロポーザルを上回るリCALLと精度を達成しており、200個のプロポーザルでも同様の結果を示している。
最終的な検出器はPASCAL FacesおよびAFWデータセットでもSOTA性能を達成し、可変部分モデルやカスケードベースの検出器と比較して、平均精度とリCALLが優れている。
1枚のVGA画像あたり50msで実行可能であり、深層ネットワークを用いながらも実用的な実行速度を実現している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。