QUICK REVIEW

[論文レビュー] Large Scale Strongly Supervised Ensemble Metric Learning, with Applications to Face Verification and Retrieval

Chang Huang, Shenghuo Zhu|arXiv (Cornell University)|Dec 25, 2012

Face recognition and analysis参考文献 22被引用数 61

ひとこと要約

本稿では、まずスパースで効果的な特徴群の選択によりブロック対角メトリックを構築し、その後に選択された部分空間で低ランクのマハラノビスメトリックを共同で学習する2段階の大規模なメトリック学習手法を提案する。この手法は、顔認証（LFWで92.58％の精度）および150次元ベクトルを用いた効率的な顔検索において最先端の性能を達成し、LMNN や LDA よりも優れており、高次元データへのスケーラビリティも高い。

ABSTRACT

Learning Mahanalobis distance metrics in a high- dimensional feature space is very difficult especially when structural sparsity and low rank are enforced to improve com- putational efficiency in testing phase. This paper addresses both aspects by an ensemble metric learning approach that consists of sparse block diagonal metric ensembling and join- t metric learning as two consecutive steps. The former step pursues a highly sparse block diagonal metric by selecting effective feature groups while the latter one further exploits correlations between selected feature groups to obtain an accurate and low rank metric. Our algorithm considers all pairwise or triplet constraints generated from training samples with explicit class labels, and possesses good scala- bility with respect to increasing feature dimensionality and growing data volumes. Its applications to face verification and retrieval outperform existing state-of-the-art methods in accuracy while retaining high efficiency.

研究の動機と目的

高次元で過剰な特徴空間において、正確で低ランクのマハラノビス距離メトリックを学習する課題に対処すること。
明示的なクラスラベルを伴う大規模データセットにおけるメトリック学習のスケーラビリティと効率性を向上させること。
教師ありメトリック学習を通じてコンパクトで判別性の高い表現を学習し、顔認証および検索を効果的に行えるようにすること。
LMNN や LDA などの従来手法が高次元設定やメモリ制限環境で抱える限界を克服すること。

提案手法

本手法は2段階のプロセスを用いる：まず、スパースなブロック対角メトリックのアンサンブルにより、効果的な特徴群の選択と各グループごとの弱いメトリックの学習を行う。
次に、選択された特徴部分空間で共同メトリック学習を行い、すべてのペアまたはトライオレット制約を用いて低ランクで正確なマハラノビスメトリックを学習する。
バッチ最適化を効率的に行えるように、指数関数的ロジット補代替に基づく凸な滑らかな損失関数を採用する。
アルゴリズムはスケーラビリティを考慮して設計されており、高次元特徴と大規模な学習データを扱える。
最終的なメトリックに低ランク構造を強制するためにトレースノルム正則化を適用し、効率的な検索のための次元削減を実現する。
アクティブセット法に起因するメモリと収束の問題を回避するため、効率的な勾配計算を伴うバッチ学習で実装されている。

実験結果

リサーチクエスチョン

RQ12段階のメトリック学習アプローチは、高次元空間における精度と効率を向上させるために、スパース特徴選択と共同メトリック学習を効果的に統合できるか？
RQ2LMNN などの従来手法と比較して、特徴次元数やデータ量の増加に伴う本手法のスケーリング特性はいかほどか？
RQ3共同メトリック学習は、顔認証および検索タスクにおいて LDA や LMNN をどの程度上回るか？
RQ4外部データや3次元モデルを一切使用せずに、制限のない LFW で最先端の性能を達成できるか？
RQ5滑らかで凸な損失関数の使用は、アクティブセット法と比較して収束をより速くし、スケーラビリティを向上させられるか？

主な発見

提案手法は、制限のない LFW ベンチマークで平均分類精度92.58％を達成し、以前の記録91.30％を上回った。
共同メトリック学習により、LMNN よりも著しく訓練時間を短縮した。LMNN が1,000回以上を要するのに対し、本手法は45～130イテレーションで収束した。
1,000次元の特徴と30のターゲットネイバーに対しても、本手法は効率的にスケーリングしたが、LMNN は複数のケースでメモリ制限により失敗した。
400万枚の顔データベースを用いた検索では、1台のサーバーで150次元ベクトルを用いた検索にわずか2秒で完了し、高い効率性を示した。
共同メトリック学習は、LDA よりも検索精度で優れており、特に200次元を超える投影次元では LDA が飽和するのに対し、本手法はその影響を受けにくかった。
大規模データセットにおける顔検索で、平均平均精度（mAPQ）が0.70に達し、ベースライン手法と比較して顕著に向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。