QUICK REVIEW

[論文レビュー] Beyond Frontal Faces: Improving Person Recognition Using Multiple Cues

Ning Zhang, Manohar Paluri|arXiv (Cornell University)|Jan 23, 2015

Face recognition and analysis参考文献 29被引用数 25

ひとこと要約

この論文では、正面顔が稀な非制約的フォトアルバムにおける識別認識を向上させるために、深層畳み込みネットワークとポーズレットベースのパーツ検出器を組み合わせたポーズ不変型人物認識システム、PIPERを提案する。複数のボディパーツ、顔検出、グローバル特徴からの手がかりを統合することで、PIPERは581人の識別子に対して83.05%の精度を達成し、正面顔が存在する場合にDeepFaceよりも40%の誤差削減を実現した。

ABSTRACT

We explore the task of recognizing peoples' identities in photo albums in an unconstrained setting. To facilitate this, we introduce the new People In Photo Albums (PIPA) dataset, consisting of over 60000 instances of 2000 individuals collected from public Flickr photo albums. With only about half of the person images containing a frontal face, the recognition task is very challenging due to the large variations in pose, clothing, camera viewpoint, image resolution and illumination. We propose the Pose Invariant PErson Recognition (PIPER) method, which accumulates the cues of poselet-level person recognizers trained by deep convolutional networks to discount for the pose variations, combined with a face recognizer and a global recognizer. Experiments on three different settings confirm that in our unconstrained setup PIPER significantly improves on the performance of DeepFace, which is one of the best face recognizers as measured on the LFW dataset.

研究の動機と目的

正面顔が50%未満にとどまるなど、正面顔が稀な非制約的フォトアルバムにおける人物認識の課題に対処すること。
非正面または遮蔽された視点では失敗する、DeepFaceのような最先端の顔認識器の限界を克服すること。
顔以外の複数の視覚的手がかりを活用する、ポーズに依存しない堅牢な認識システムの開発。
非制約的人物認識のための実世界的大規模ベンチマークとしての「フォトアルバム内の人物（PIPA）」データセットの導入。
データが少ない状況下での効果的なワンショット学習と非教師付き識別子検索の実現。

提案手法

ポーズレットレベルの識別子分類器、顔認識器、グローバル画像認識器からの予測を統合する、複数の手がかりを用いた人物認識フレームワークであるPIPERを提案する。
一般的なボディ構成（例：プロファイルでの頭部と肩、腰に手を置いた姿勢）を検出する学習済みパーツ検出器「ポーズレット」を用い、ポーズ不変特徴を捉える。
各パーツのポーズレット検出パッチ上で別々に訓練した深層畳み込みネットワークを用い、各パーツの識別子固有の特徴を学習する。
個々のポーズレット予測を、学習された重み付き統合（式1）により統合し、ポーズ変動に対する耐性を高める。
比較のためのベースラインとして、PIPAデータセット上でKrizhevskyスタイルのCNNを微調整する。
バリデーションスプリット上で訓練したSVMを用い、非教師付き検索用のコンactな366次元の識別子特徴ベクトルを生成する。

実験結果

リサーチクエスチョン

RQ1正面顔が限られている非制約的フォトアルバムにおいて、複数パーツで構成されポーズに依存しない認識システムが、正面顔ベースのモデルを著しく上回ることができるか？
RQ2パーツベースの手がかり（ポーズレット）、顔検出、グローバル特徴の統合は、ポーズや視点の変化に対しても認識精度を向上させるのにどの程度有効か？
RQ3提案手法は、1つまたは数個のトレーニング例しか持たないワンショット学習の状況にどの程度一般化できるか？
RQ4メトリクス学習や明示的なトレーニングなしに、非教師付き識別子検索において、このシステムはどの程度の性能を示すか？
RQ5PIPAのような大規模で実世界のデータセットは、非制約的人物認識分野における意味のあるベンチマークと進歩を可能にするか？

主な発見

PIPERは581人の識別子のテストセットで83.05%の精度を達成し、非制約的環境下でグローバルベースラインおよびDeepFaceを著しく上回った。
正面顔が欠落しているサブセットでは、PIPERは71.8%の精度を達成したのに対し、DeepFaceはわずか0.17%にとどまり、顔欠落に対する耐性が確認された。
正面顔が存在する場合、PIPERは精度をDeepFaceの89.3%から93.4%まで向上させ、相対誤差を約40%削減した。
ワンショット学習では、PIPERは1人の識別子あたり1つのトレーニング例でのみ学習した場合に28.1%の精度を達成し、グローバルCNNベースラインよりも学習速度と一般化性能に優れた。
非教師付き識別子検索においては、PIPERを用いると64%のクエリ画像がトップ5の近隣候補に正しいマッチングを示したのに対し、微調整済みImageNet CNNでは50%にとどまった。
トレーニング例の数が増加するに従い、PIPERの性能向上はグローバルCNNベースラインよりも速く、より優れたデータ効率性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。