QUICK REVIEW

[논문 리뷰] Large Scale Strongly Supervised Ensemble Metric Learning, with Applications to Face Verification and Retrieval

Chang Huang, Shenghuo Zhu|arXiv (Cornell University)|2012. 12. 25.

Face recognition and analysis참고 문헌 22인용 수 61

한 줄 요약

이 논문은 먼저 희박하고 효과적인 특징 그룹을 선택하여 블록 대각 메트릭을 구축한 후, 선택된 부분공간에서 함께 저질서 Mahalanobis 메트릭을 학습하는 두 단계의 대규모 거리 측정 학습 방법을 제안한다. 이 방법은 얼굴 인식(150D 벡터를 사용하여 LFW에서 92.58% 정확도)과 효율적인 얼굴 검색에서 최신 기술 수준의 성능을 달성하며, LMNN와 LDA를 능가하고 고차원 데이터에 대해 효율적으로 확장된다.

ABSTRACT

Learning Mahanalobis distance metrics in a high- dimensional feature space is very difficult especially when structural sparsity and low rank are enforced to improve com- putational efficiency in testing phase. This paper addresses both aspects by an ensemble metric learning approach that consists of sparse block diagonal metric ensembling and join- t metric learning as two consecutive steps. The former step pursues a highly sparse block diagonal metric by selecting effective feature groups while the latter one further exploits correlations between selected feature groups to obtain an accurate and low rank metric. Our algorithm considers all pairwise or triplet constraints generated from training samples with explicit class labels, and possesses good scala- bility with respect to increasing feature dimensionality and growing data volumes. Its applications to face verification and retrieval outperform existing state-of-the-art methods in accuracy while retaining high efficiency.

연구 동기 및 목표

고차원이고 과잉 결정된 특징 공간에서 정확하고 저질서 Mahalanobis 거리 메트릭을 학습하는 데 도전하는 것.
명시적인 클래스 레이블이 있는 대규모 데이터셋에서 거리 측정 학습의 확장성과 효율성을 향상시키는 것.
감독 거리 측정 학습을 통해 압축되고 분류 능력이 뛰어난 표현을 학습하여 효과적인 얼굴 인식 및 검색을 가능하게 하는 것.
고차원 환경과 메모리 제약 조건에서 기존 방법들인 LMNN와 LDA의 한계를 극복하는 것.

제안 방법

이 방법은 두 단계 과정을 사용한다: 첫째, 희박한 블록 대각 메트릭 앙상블을 통해 효과적인 특징 그룹을 선택하고 각 그룹에 대한 약한 메트릭을 학습한다.
둘째, 선택된 특징 부분공간에서 함께 메트릭을 학습하여 모든 쌍 또는 트리플렛 제약 조건을 사용해 저질서이고 정확한 Mahalanobis 메트릭을 학습한다.
효율적인 배치 최적화를 가능하게 하기 위해 지수 로짓 대체 손실 함수를 기반으로 한 볼록 스무스 손실 함수를 적용한다.
알고리즘은 확장성에 맞게 설계되어 있으며, 고차원 특징과 대규모 학습 데이터를 처리할 수 있다.
최종 메트릭의 저질서 구조를 강제하기 위해 트레이스 노름 정규화를 적용하여 차원을 줄여 효율적인 검색을 가능하게 한다.
활성 집합 방법의 메모리 및 수렴 문제를 피하기 위해 효율적인 기울기 계산을 사용하는 배치 학습으로 구현된다.

실험 결과

연구 질문

RQ1두 단계 거리 측정 학습 접근법이 고차원 공간에서 정확도와 효율성을 향상시키기 위해 희박한 특징 선택과 함께 메트릭 학습을 효과적으로 통합할 수 있는가?
RQ2LMNN와 같은 기존 방법과 비교해, 제안된 방법이 특징 차원 수와 데이터 양이 증가함에 따라 어떻게 확장되는가?
RQ3얼굴 인식 및 검색 작업에서 공동 메트릭 학습이 LDA와 LMNN를 얼마나 뛰어나게 성능을 높일 수 있는가?
RQ4외부 데이터나 3D 모델 없이도 제안된 방법이 제한 없는 LFW에서 최신 기술 수준의 성능을 달성할 수 있는가?
RQ5스무스한 볼록 손실 함수의 사용이 활성 집합 방법보다 더 빠른 수렴과 향상된 확장성 가능성을 제공하는가?

주요 결과

제안된 방법은 제한 없는 LFW 벤치마크에서 평균 분류 정확도 92.58%를 달성하여 이전 기록인 91.30%를 초월했다.
공동 메트릭 학습은 LMNN 대비 훨씬 빠른 수렴을 보였으며, 45~130회 반복 내에 수렴했고, LMNN는 1,000회 이상 소요되었으며, 고차원 특징을 사용함에도 불구하고 말이다.
LMNN가 메모리 한계로 여러 경우에서 실패하는 동안, 이 방법은 1,000차원 특징과 30개의 대상 이웃까지 효율적으로 확장되었다.
400만 장의 얼굴 데이터베이스에서 150D 벡터를 사용한 검색은 단일 서버에서 단 2초가 걸려 높은 효율성을 입증했다.
공동 메트릭 학습은 특히 LDA가 포화 상태에 이르는 200 이상의 투영 차원에서 LDA를 뛰어넘는 검색 정확도를 보였다.
대규모 데이터셋에서 얼굴 검색의 평균 평균 정밀도(mAPQ)는 0.70을 기록하여 기준 방법들보다 뚜렷이 향상되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.