Skip to main content
QUICK REVIEW

[論文レビュー] Face Search at Scale: 80 Million Gallery

D. Wang, Charles Otto|arXiv (Cornell University)|Jul 26, 2015
Face recognition and analysis参考文献 7被引用数 80
ひとこと要約

本論文では、大規模なギャラリー上でスケーラブルで高精度な顔認識を実現するため、深層畳み込みニューラルネットワーク(CNN)特徴量と商用市販品(COTS)顔マッチャーを組み合わせた段階的顔検索システムを提案する。このシステムは、LFW(98.23%の正確性)およびIJB-Aベンチマークで最先端の性能を達成し、500万枚のギャラリーでは1秒で若いツァルナエフ兄弟の写真をランク1で、8000万枚のギャラリーでは7秒でランク8で正しく検索した。

ABSTRACT

Due to the prevalence of social media websites, one challenge facing computer vision researchers is to devise methods to process and search for persons of interest among the billions of shared photos on these websites. Facebook revealed in a 2013 white paper that its users have uploaded more than 250 billion photos, and are uploading 350 million new photos each day. Due to this humongous amount of data, large-scale face search for mining web images is both important and challenging. Despite significant progress in face recognition, searching a large collection of unconstrained face images has not been adequately addressed. To address this challenge, we propose a face search system which combines a fast search procedure, coupled with a state-of-the-art commercial off the shelf (COTS) matcher, in a cascaded framework. Given a probe face, we first filter the large gallery of photos to find the top-k most similar faces using deep features generated from a convolutional neural network. The k candidates are re-ranked by combining similarities from deep features and the COTS matcher. We evaluate the proposed face search system on a gallery containing 80 million web-downloaded face images. Experimental results demonstrate that the deep features are competitive with state-of-the-art methods on unconstrained face recognition benchmarks (LFW and IJB-A). Further, the proposed face search system offers an excellent trade-off between accuracy and scalability on datasets consisting of millions of images. Additionally, in an experiment involving searching for face images of the Tsarnaev brothers, convicted of the Boston Marathon bombing, the proposed face search system could find the younger brother's (Dzhokhar Tsarnaev) photo at rank 1 in 1 second on a 5M gallery and at rank 8 in 7 seconds on an 80M gallery.

研究の動機と目的

  • SNSや法執行警察などの制約のない環境において、毎日何十億枚もの顔画像がアップロードされる中で、大規模顔検索の課題に対処すること。
  • ギャラリーのサイズが増加するにつれて精度とスケーラビリティが低下する既存の顔認識手法の限界を克服すること。
  • 実世界の膨大な画像コレクションへの導入に適した、高い認識正確性と低い計算コストのバランスを取ったシステムを開発すること。
  • 段階的アーキテクチャを用いて、深層学習特徴量とCOTSマッチャーを組み合わせることで、検索性能を向上させることの有効性を示すこと。

提案手法

  • CASIAデータセットで訓練された深層畳み込みニューラルネットワーク(CNN)を用いて、顔の表現に適したコンパクトで特徴的な深層特徴量を抽出する。
  • 高次元特徴空間における高速なフィルタリングを可能にするために、製品量子化(PQ)を適用し、近似k近傍(k-NN)検索を実現する。
  • 深層特徴量を用いてトップ-kの候補顔を取得し、最先端のCOTS顔マッチャーから得られる類似度スコアを用いて再順序付けを行う。
  • 内部特徴量を公開しないが、ペairワイズ比較スコアを提供するCOTSマッチャーを段階的アーキテクチャに統合し、正確性を保持する。
  • 深層特徴量(高速で汎用的)とCOTSマッチャー(高精度で頑健)の相補的な強みを活かし、全体の検索性能を向上させる。
  • 複雑度が増す3つのデータセット(PCS0顔写真、LFW、IJB-A)および大規模な8000万枚の顔ギャラリーを用いてシステムを評価する。

実験結果

リサーチクエスチョン

  • RQ1深層特徴量とCOTSマッチャーを組み合わせた段階的顔検索システムは、大規模顔ギャラリーにおいて高い正確性とスケーラビリティを達成できるか?
  • RQ2LFW や IJB-A といった制約のない顔認識ベンチマークにおいて、深層特徴量の性能は最先端の手法と比べてどうか?
  • RQ3本手法は、ボストンマラソン爆破事件のような現実世界のシナリオにおいて、関連する顔をどの程度の精度で検索できるか?
  • RQ4再順序付けによる深層特徴量とCOTSマッチャーの統合は、単独で使用する場合と比較して、検索正確性を向上させるか?

主な発見

  • LFWデータセットでは、標準プロトコル下で98.23%の正確性を達成し、BLUFRプロトコル下では0.1%の偽陽性率(FAR)における検証レートが87.65%に達し、先行研究を上回った。
  • IJB-Aベンチマークでは、0.1%のFARにおける真陽性率(TAR)が51.4%(検証)、クローズドセット検索におけるランク1リトリーブが82.0%、オープンセット検索における1%のFPIRにおけるFNIRが61.7%を達成した。
  • ツァルナエフ兄弟の事例研究では、500万枚のギャラリーでは1秒で若い兄弟の写真をランク1で、8000万枚のギャラリーでは7秒でランク8で正しく検索した。
  • 深層特徴量のみでも、同様の条件下(例:覆い隠し、ぼやけ)で候補を返し、ギャラリーに事前に存在しないとされていなかった類似画像を検出できた。
  • 段階的システムは検索性能を顕著に向上させた:8000万枚のギャラリーでは、トップ1万件の候補を再順序付けすることで、プローブ2cの正解画像をランク8で特定したが、深層特徴量のみではトップ3000件内に同定できなかった。
  • システムは規模が拡大しても高い正確性を維持し、数百万枚の画像においても性能と計算効率の良好なトレードオフを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。