QUICK REVIEW

[논문 리뷰] Deeply learned face representations are sparse, selective, and robust

Yi Sun, Xiaogang Wang|arXiv (Cornell University)|2014. 12. 03.

Face recognition and analysis참고 문헌 31인용 수 45

한 줄 요약

이 논문은 LFW 및 YouTube Faces 벤치마크에서 최고 성능을 달성하는 딥 컨volution 네트워크인 DeepID2+를 제안한다. 이는 공동 식별-검증 감독을 통해 얼굴 표현을 학습함으로써 이루어지며, 이중화된 활성화 함수를 사용함에도 불구하고 높은 정확도를 달성한다. 이는 깊이 있는 특징이 본질적으로 희박하고, 정체성 및 특성에 대해 선택적으로 반응하며, 명시적인 정규화 없이도 가림에 대해 강건함을 시사한다.

ABSTRACT

This paper designs a high-performance deep convolutional network (DeepID2+) for face recognition. It is learned with the identification-verification supervisory signal. By increasing the dimension of hidden representations and adding supervision to early convolutional layers, DeepID2+ achieves new state-of-the-art on LFW and YouTube Faces benchmarks. Through empirical studies, we have discovered three properties of its deep neural activations critical for the high performance: sparsity, selectiveness and robustness. (1) It is observed that neural activations are moderately sparse. Moderate sparsity maximizes the discriminative power of the deep net as well as the distance between images. It is surprising that DeepID2+ still can achieve high recognition accuracy even after the neural responses are binarized. (2) Its neurons in higher layers are highly selective to identities and identity-related attributes. We can identify different subsets of neurons which are either constantly excited or inhibited when different identities or attributes are present. Although DeepID2+ is not taught to distinguish attributes during training, it has implicitly learned such high-level concepts. (3) It is much more robust to occlusions, although occlusion patterns are not included in the training set.

연구 동기 및 목표

기존 모델을 능가하는 표준 벤치마크에서 고성능의 딥 컨volution 네트워크를 설계하는 것.
높은 성능에 기여하는 깊이 있는 신경망 활성화의 내재적 특성—특히 희박성, 선택성, 강건성—을 조사하는 것.
이 유익한 특성이 명시적인 정규화나 아키텍처 수정 없이도 대규모 학습에서 자연스럽게 발생하는지 이해하는 것.
효율적인 대규모 얼굴 인식을 위한 이중화된 깊이 특징 표현의 효과성을 평가하는 것.

제안 방법

DeepID2+ 네트워크는 은닉 표현의 차원을 증가시키고, 초기 컨볼루션 레이어에 감독을 추가하여 특징 학습을 향상시킨다.
모델는 정체성과 검증을 동시에 최적화하는 공동 손실 함수를 사용하여 정체성 간의 분류 능력을 향상시킨다.
층별 활성화 패턴을 분석하여 희박성, 선택성, 가림에 대한 강건성을 평가한다.
최상위 은닉 레이어의 활성화를 임계값을 적용하여 이진 표현으로 추출함으로써, 정확도 저하를 최소화하면서 효율적인 얼굴 인식을 가능하게 한다.
부분적이고 무작위 블록 가림 상황에서의 강건성을 평가하며, DeepID2+ 특징과 수작업으로 만든 LBP 특징을 비교한다.
다양한 얼굴 영역에서 학습된 여러 개의 DeepID2+ 네트워크를 조합하여 가림에 대한 강건성을 향상시킨다.

실험 결과

연구 질문

RQ1얼굴 인식 모델의 깊이 있는 신경망 활성화가 명시적인 정규화 없이도 자연스럽게 희박성, 선택성, 강건성을 보이는가?
RQ2이중화된 깊이 특징 표현이 전기 정밀도 활성화와 비교해 얼마나 높은 인식 정확도를 유지할 수 있는가?
RQ3가림 및 이미지 손상에 대해 LBP와 같은 수작업 특징과 비교해 깊이 특징은 어떤가?
RQ4특정 정체성이나 특성에 대해 명시적으로 학습하지 않은 상태에서도 고차원 레이어의 개별 뉴런이 강력한 지표가 될 수 있는가?
RQ5이미지 손상 상황에서 네트워크의 깊이가 특징 표현의 안정성에 어떤 영향을 미치는가?

주요 결과

DeepID2+는 LFW에서 98.70%의 검증 정확도를 달성하여 새로운 최고 성능을 기록하였으며, 25개의 네트워크를 조합할 경우 99.47%의 정확도를 기록한다.
최상위 은닉 레이어의 활성화는 중간 정도의 희박성을 보이며, 각 이미지당 약 절반의 뉴런이 활성화되고, 각 뉴런은 약 절반의 이미지에서 활성화되어 분류 능력을 극대화한다.
최상위 레이어의 활성화를 이진화하면 LFW 검증 정확도가 1% 이하로만 감소하여, 이진 코드가 인식에 효과적임을 입증한다.
고차원 레이어의 뉴런은 매우 선택적이다. 특정 정체성이나 특성에 대해 일정한 부분 집합의 뉴런이 항상 활성화되거나 억제되며, 이는 명시적인 학습 없이도 가능하다.
DeepID2+는 LFW에서 40%의 가림 상황에서도 90% 이상의 검증 정확도를 유지하지만, LBP 특징은 70% 이하로 떨어지며, 이는 훨씬 뛰어난 강건성을 보임을 시사한다.
얼굴 영역별로 25개의 DeepID2+ 네트워크를 조합하면 40%의 가림 상황에서 93.9%의 정확도를 기록하고, 이마와 머리카락만 노출된 경우에도 88.2%의 정확도를 기록하여 단일 네트워크 및 LBP 기반 베이스라인을 모두 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.