QUICK REVIEW

[論文レビュー] Learning Face Representation from Scratch

Yi Dong, Zhen Lei|arXiv (Cornell University)|Nov 28, 2014

Face recognition and analysis参考文献 21被引用数 1,651

ひとこと要約

本稿では、半自動的なウェブクローリングおよびクラスタリングパイプラインを用いて収集された、約50万枚の画像と10,000人の被験者からなる大規模で公開可能な顔データセット、CASIA-WebFaceを紹介する。このデータセットを用いて、11層の畳み込みニューラルネットワーク（CNN）を訓練した。その結果、LFW（BLUFRプロトコル下で99.16％の正確性）およびYTF（92.24％の正確性）で最先端の性能を達成し、教師あり設定下でDeepFaceやDeepID2を上回った。

ABSTRACT

Pushing by big data and deep convolutional neural network (CNN), the performance of face recognition is becoming comparable to human. Using private large scale training datasets, several groups achieve very high performance on LFW, i.e., 97% to 99%. While there are many open source implementations of CNN, none of large scale face dataset is publicly available. The current situation in the field of face recognition is that data is more important than algorithm. To solve this problem, this paper proposes a semi-automatical way to collect face images from Internet and builds a large scale dataset containing about 10,000 subjects and 500,000 images, called CASIAWebFace. Based on the database, we use a 11-layer CNN to learn discriminative representation and obtain state-of-theart accuracy on LFW and YTF. The publication of CASIAWebFace will attract more research groups entering this field and accelerate the development of face recognition in the wild.

研究の動機と目的

顔認識アルゴリズムの再現可能性と公平な比較を阻害する、公開可能な大規模顔データセットの不足に対処すること。
IMDbの構造化されたデータとクラスタリング技術を活用した、スケーラブルで半自動的なウェブベース顔画像収集・アノテーションパイプラインの開発。
深層CNNのための顔表現学習を可能にする、大規模で重複のないトレーニングデータセットの構築。
LFWおよびYTFでの評価プロトコルを標準化する公開ベンチマークデータセットの提供により、公平で比較可能な研究を促進すること。
CASIA-WebFace上でトレーニングされた高性能な深層CNNベースラインを構築し、既存手法を上回ること。

提案手法

名前をクエリとして使用し、IMDbから有名人の画像をクローリングし、サイトの構造化されたメタデータを活用して画像URLを抽出した。
顔クラスタリングアルゴリズムを適用し、複数人の顔を含む画像内の顔をグループ化し、名前の共起性と距離に基づいてIDラベルを割り当てた。
名前の編集距離を用いてLFWとの潜在的な重複を特定・除去し、データセットの独立性を保証した。
アノテーションの正確性を向上させるために、手動による検証と修正を実施した。
ReLU、ドロップアウト、および統合識別/検証損失関数を用いた11層の深層畳み込みニューラルネットワークを訓練した。
LFW（標準およびBLUFRプロトコル）およびYTFでの評価に、学習された特徴量を用い、コサイン類似度とPCAまたはジョイントベイズによる後処理を適用した。

実験結果

リサーチクエスチョン

RQ1半自動パイプラインは、人的作業を最小限に抑えつつ、多様なウェブベース顔画像の大規模収集とアノテーションを効果的に行えるか？
RQ2CASIA-WebFaceのような公開で重複のない顔データセットは、LFWやYTFといった標準ベンチマークで一般化性能を発揮する深層CNNのトレーニングを可能にするか？
RQ3CASIA-WebFaceでトレーニングされた深層CNNは、DeepFace や DeepID2 といった最先端モデルと比較して、制約のない顔認識タスクにおける正確性と頑健性の面で優れているか？
RQ4CASIA-WebFaceにおける表現学習は、監視下の応用で特に重要な低偽陽性率の状況（例：監視用途）での性能向上にどの程度寄与するか？
RQ5単一の深層ネットワークをCASIA-WebFaceでトレーニングした場合、単純な後処理技術と組み合わせることで、アンサンブルモデルと同等の性能を達成できるか？

主な発見

提示された半自動パイプラインは、人的作業を最小限に抑えつつ、10,000人の被験者から50万枚の顔画像を収集し、高品質で重複のないデータセットを構築した。
CASIA-WebFaceでトレーニングされた11層CNNは、BLUFRプロトコル下でLFWで99.16％の正確性を達成し、HD-LBPベースの手法（FAR=0.1％でのVR=41.66％）を顕著に上回った。
YTFデータセットでは、教師あり設定下で92.24％の正確性を達成し、ジョイントベイズ後処理を適用した場合、DeepFace（91.4％）を上回った。
YTFにおけるPCAおよびジョイントベイズ後処理の効果は顕著で、コサイン類似度のみの場合の88.00％から92.24％まで正確性が向上した。
結果から、深層モデルは特に監視下の応用で重要な低偽陽性率領域において、広範なモデル（例：HD-LBP）を顕著に上回ることが示された。
CASIA-WebFaceの公開により、公平で再現可能なベンチマーク評価が可能となり、制約のない顔認識分野の研究を加速できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。