QUICK REVIEW

[論文レビュー] MegaFace: A Million Faces for Recognition at Scale

Daniel Miller, Brossard, E.|arXiv (Cornell University)|May 8, 2015

Face recognition and analysis参考文献 27被引用数 44

ひとこと要約

この論文は、Flickrから得た100万枚の制約のない実世界の顔画像を用いた大規模ベンチマーク、MegaFaceを紹介する。これは顔認識アルゴリズムの惑星規模での評価を目的としている。その結果、多くのアルゴリズムが大規模条件において著しく性能を落とす一方で、GoogleのFaceNetは強力な性能を維持しており（100万件の誤検出者を伴う75％のランク1識別率）、人間を上回っている。人間の性能は同様の条件下で23.9％のランク1正答率にとどまる。

ABSTRACT

Recent face recognition experiments on the LFW benchmark show that face recognition is performing stunningly well, surpassing human recognition rates. In this paper, we study face recognition at scale. Specifically, we have collected from Flickr a extbf{Million} faces and evaluated state of the art face recognition algorithms on this dataset. We found that the performance of algorithms varies--while all perform great on LFW, once evaluated at scale recognition rates drop drastically for most algorithms. Interestingly, deep learning based approach by \cite{schroff2015facenet} performs much better, but still gets less robust at scale. We consider both verification and identification problems, and evaluate how pose affects recognition at scale. Moreover, we ran an extensive human study on Mechanical Turk to evaluate human recognition at scale, and report results. All the photos are creative commons photos and is released at \small{\url{http://megaface.cs.washington.edu/}} for research and further experiments.

研究の動機と目的

LFWベンチマークを超えた最新の顔認識アルゴリズムのスケーラビリティを評価すること。
研究用に利用可能な大規模な、制約のない実世界の顔画像データセットを確立すること。
特に高い誤検出者負荷下での人間の顔認識性能を、スケールで測定すること。
ポーズの変化が大規模な設定における認識精度に与える影響を調査すること。
訓練用とテスト用に分割された標準化されたベンチマークを提供し、異なる手法間での公平な評価を可能にすること。

提案手法

Flickrのクリエイティブコモンズ100Mフォトコレクションから100万枚の顔画像を収集し、多様で制約のない条件を確保した。
100万件の誤検出者を含む大規模顔認識ベンチマークを構築し、公平な評価のための訓練データセットとテストデータセットを分離した。
アルゴリズムの評価を、ペアワイズマッチング（検証）およびランク1・ランク10（識別）のタスクの両方で行った。
アマゾン・メカニカル・トルクを介して大規模な人間の研究を実施し、各プローブに対して10,000件の誤検出者から正しいマッチングを特定する作業を行った。
異なる誤検出者数を想定した性能測定のために、累積マッチ特性（CMC）曲線と受信器操作特性（ROC）曲線を用いた。
プローブ画像とギャラリー画像間のヨー差を関数として識別精度を測定することで、ポーズの影響を分析した。

実験結果

リサーチクエスチョン

RQ1現在の顔認識アルゴリズムは、100万件の誤検出者にスケーリングされた場合にどのように動作するか？
RQ2スケールで人間の顔認識性能は、機械学習モデルと比較してどうなるか？
RQ3ポーズの変化が大規模な設定における認識精度に与える影響は何か？
RQ4大規模な条件下で、検証タスクと識別タスクの間でアルゴリズムの性能はどのように変化するか？
RQ5データセットバイアス（例：正面 vs. 非正面画像）が認識性能に与える影響はどの程度か？

主な発見

FaceNetは100万件の誤検出者を伴う状況で75％のランク1識別率を達成し、他のアルゴリズムを著しく上回った。
深層学習でない大多数のアルゴリズムは、100万件の誤検出者にスケーリングされた場合、性能が70％以上低下した。
人間は10,000件の誤検出者を伴う状況で23.9％のランク1識別率を達成し、スケールが大きくなると人間の認識性能が著しく低下することが示された。
プローブとギャラリー画像間のヨー差が大きくなるほど認識性能が低下した。これは、ポーズを越えたマッチングが依然として課題であることを示している。
Joint Bayesian法は、誤検出者が正面（ヨー < 2°）にある場合に性能が悪化した。これはポーズバイアスがアルゴリズムの性能に影響を与える可能性を示している。
FaceNetおよびJoint Bayesianの両方において、データベースサイズの変化に関わらず検証性能が安定しており、ペアワイズマッチングにおける頑健性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。