QUICK REVIEW

[論文レビュー] DeepID3: Face Recognition with Very Deep Neural Networks

Yi Sun, Ding Liang|arXiv (Cornell University)|Feb 3, 2015

Face recognition and analysis参考文献 16被引用数 895

ひとこと要約

この論文は、VGGおよびGoogLeNetの要素を組み合わせた非常に深いニューラルネットワークアーキテクチャ、DeepID3を提案する。識別-検証の共同監視に基づくもので、LFWでの顔認識検証精度が99.53%、ランク1識別精度が96.0%に達するが、LFWテストペアの誤ラベルを補正すると性能向上は消失する。

ABSTRACT

The state-of-the-art of face recognition has been significantly advanced by the emergence of deep learning. Very deep neural networks recently achieved great success on general object recognition because of their superb learning capacity. This motivates us to investigate their effectiveness on face recognition. This paper proposes two very deep neural network architectures, referred to as DeepID3, for face recognition. These two architectures are rebuilt from stacked convolution and inception layers proposed in VGG net and GoogLeNet to make them suitable to face recognition. Joint face identification-verification supervisory signals are added to both intermediate and final feature extraction layers during training. An ensemble of the proposed two architectures achieves 99.53% LFW face verification accuracy and 96.0% LFW rank-1 face identification accuracy, respectively. A further discussion of LFW face verification result is given in the end.

研究の動機と目的

一般物体認識で成功した非常に深いニューラルネットワークが、顔認識性能を向上させられるかどうかを調査すること。
深層学習の進展にもかかわらず認識精度を制限する顔表現における個人内変動を解決すること。
複雑な顔特徴を学習するため、複数の畳み込み層およびインセプション層をスタックすることの有効性を調査すること。
LFWのような標準ベンチマークにおいて、より深いアーキテクチャがDeepID2+のような浅いモデルを上回るかを評価すること。
LFWデータセットにおけるラベル誤りが報告された性能指標に与える影響を検討すること。

提案手法

VGGおよびGoogLeNetの要素を再利用し、スタックされた畳み込み層およびインセプション層を用いて、2つの深層アーキテクチャ（DeepID3 net1 および net2）を構築する。
中間および最終特徴抽出層に、顔識別-検証の共同監視信号を導入することで、個人内変動を低減する。
一部のDeepID3ネットワークの上位層で重みを共有しない設計を採用し、より豊富な顔特徴プールを学習する。
次元削減のため、特徴エンsembleとPCAを用い、~30,000次元から300次元に次元を削減した後、識別にJoint Bayesianモデルを適用する。
公平な比較を確保するため、DeepID2+と同一のデータセットで学習を行う。
顔検証およびクローズド/オープンセット識別タスクの両方において、標準LFWプロトコルに従って性能を評価する。

実験結果

リサーチクエスチョン

RQ1一般画像認識（例：VGG、GoogLeNet）で成功した非常に深いニューラルネットワークを、顔認識に効果的に適応できるか？
RQ2単一監視手法と比較して、識別-検証の共同監視が顔認識ベンチマークでの性能向上に寄与するか？
RQ3DeepID2+を超えるネットワークの深さを実現することで、LFWにおける測定可能な性能向上が得られるか？
RQ4LFWデータセットにおけるラベル誤りが、報告された顔検証精度やモデル比較に与える影響は何か？
RQ5ハード例および誤ラベル付きペアの影響は、深層顔認識モデルの一般化性能にどのような影響を及えるか？

主な発見

DeepID3は、標準プロトコル下でLFWで99.53%の顔検証精度を達成し、DeepID2+の99.47%に対してわずかな向上を示す。
クローズドセット評価では、ランク1識別精度が96.0%に上昇し、DeepID2+の95.0%から向上している。
LFWに含まれる3つの誤ラベル付き顔ペアを修正した後、DeepID3の真の検証精度は99.52%に低下し、DeepID2+の修正後性能と一致する。
DeepID3とDeepID2+の両方が、9つの共通の誤検出（偽陽性）と3つの共通の誤検出（偽陰性）を示しており、類似する顔や被覆された顔に対する持続的な課題が示されている。
誤ラベル付きの陽性ペアのうち3つ中2つは、異なる人物として正しく分類されているが、1つは同じ人物と誤分類されている。
DeepID2+よりも顕著に深いアーキテクチャを用いているにもかかわらず、LFWでは性能向上が観察されない。これは、ラベルノイズやデータセットの制限が、より大きな学習データがなければさらなる向上を妨げている可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。