QUICK REVIEW

[論文レビュー] Surpassing Human-Level Face Verification Performance on LFW with GaussianFace

Chaochao Lu, Xiaoou Tang|arXiv (Cornell University)|Apr 15, 2014

Face recognition and analysis参考文献 58被引用数 51

ひとこと要約

本論文は、多様な複数のソースドメインからのデータを活用して、顔認識の一般化性能を向上させる、判別的ガウス過程潜在変数モデルに基づくマルチタスク学習フレームワーク、GaussianFaceを提案する。効率的なKFDAの同等形式とGP近似を組み合わせることで、手動でのハイパーパrameterチューニングなしに複雑なデータ分布に自動的に適応し、LFWでは98.52%の精度を達成。これは、人間水準の性能（97.53%）を初めて上回る。

ABSTRACT

Face verification remains a challenging problem in very complex conditions with large variations such as pose, illumination, expression, and occlusions. This problem is exacerbated when we rely unrealistically on a single training data source, which is often insufficient to cover the intrinsically complex face variations. This paper proposes a principled multi-task learning approach based on Discriminative Gaussian Process Latent Variable Model, named GaussianFace, to enrich the diversity of training data. In comparison to existing methods, our model exploits additional data from multiple source-domains to improve the generalization performance of face verification in an unknown target-domain. Importantly, our model can adapt automatically to complex data distributions, and therefore can well capture complex face variations inherent in multiple sources. Extensive experiments demonstrate the effectiveness of the proposed model in learning from diverse data sources and generalize to unseen domain. Specifically, the accuracy of our algorithm achieves an impressive accuracy rate of 98.52% on the well-known and challenging Labeled Faces in the Wild (LFW) benchmark. For the first time, the human-level performance in face verification (97.53%) on LFW is surpassed.

研究の動機と目的

制約のない環境における機械と人間の顔認識性能の差を埋める。
複数のソースドメインデータを活用することでドメインシフトとデータバイアスに対処し、ターゲットドメインへの一般化性能を向上させる。
手動でのハイパーパrameter設定を必要とせず、複雑な現実世界の顔の変化に自動的に適応できる柔軟で非パrametricなモデルを開発する。
効率的な推論近似を用いて、ガウス過程ベースのモデルを大規模な顔認識タスクにスケーリングする。

提案手法

複数のソースドメインからのデータを活用するための、判別的ガウス過程潜在変数モデル（DGPLVM）におけるマルチタスク学習定式化を提案する。
DGPLVMの最適化を簡素化・高速化するため、カーネルフィッシャー判別分析（KFDA）の効率的な同等形式を導入する。
ガウス過程の近似とアンカーグラフを用いて、大規模データセットへの推論と予測をスケーラブルに実現する。
直接的な事後尤度分類と、下流分類器向けの高次元特徴抽出という、2つの顔認識モードをサポートする。
ターゲットドメインとソースドメインのデータ分布間の相互情報量を最大化することで、ドメイン適応を強化する学習目的を採用する。
大規模な共分散行列を効率的に処理するため、スケーリングされた共役勾配（SCG）最適化とスケーラブルな近似を適用する。

実験結果

リサーチクエスチョン

RQ1マルチソースドメイン適応アプローチは、LFWベンチマークで人間水準の性能を超えることができるか？
RQ2KFDAのような非パラメトリックで適応可能なモデルは、複雑な顔の変化下でも単一ソース手法よりも優れた一般化性能を示せるか？
RQ3複数のドメインからの多様なデータを組み込むことで、未知のターゲットドメインにおける一般化性能が向上するか？
RQ4スケーラブルなGP近似は、トレーニング時間とメモリ使用量を削減しながらも高い精度を維持できるか？

主な発見

GaussianFaceモデルはLFWベンチマークで98.52%の精度を達成し、人間水準の性能（97.53%）を上回った。
これは、標準評価プロトコル下で、機械学習システムがLFWで人間水準を超える初めての事例である。
複数のソースドメインからのデータを活用することで、単一ドメインへの過剰適合を低減し、優れた一般化性能を示した。
GP近似とアンカーグラフの活用により、スケーラブルな推論が実現され、DGPLVMを用いた大規模顔認識が可能になった。
複雑なデータ分布への自動適応が、手動でのアーキテクチャやハイパーパrameter指定を必要とする手法を上回る性能を発揮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。