QUICK REVIEW

[논문 리뷰] Deep Learning Multi-View Representation for Face Recognition

Zhenyao Zhu, Ping Luo|arXiv (Cornell University)|2014. 06. 26.

Face recognition and analysis참고 문헌 20인용 수 26

한 줄 요약

이 논문은 결정론적 및 확률론적 은닉 뉴런을 사용하여 얼굴 이미지에서 정체성과 시점 표현을 분리하는 딥 생성 네트워크인 Multi-View Perceptron (MVP)을 제안한다. 시점을 연속 변수로 모델링함으로써 MVP는 단일 2D 입력에서 전체 스펙트럼의 다중 시점 이미지를 생성하며, 최신 기준 성능을 달성하고 관측되지 않은 시점에 대한 보간을 가능하게 한다.

ABSTRACT

Various factors, such as identities, views (poses), and illuminations, are coupled in face images. Disentangling the identity and view representations is a major challenge in face recognition. Existing face recognition systems either use handcrafted features or learn features discriminatively to improve recognition accuracy. This is different from the behavior of human brain. Intriguingly, even without accessing 3D data, human not only can recognize face identity, but can also imagine face images of a person under different viewpoints given a single 2D image, making face perception in the brain robust to view changes. In this sense, human brain has learned and encoded 3D face models from 2D images. To take into account this instinct, this paper proposes a novel deep neural net, named multi-view perceptron (MVP), which can untangle the identity and view features, and infer a full spectrum of multi-view images in the meanwhile, given a single 2D face image. The identity features of MVP achieve superior performance on the MultiPIE dataset. MVP is also capable to interpolate and predict images under viewpoints that are unobserved in the training data.

연구 동기 및 목표

2D 이미지에서 본질적으로 결합되어 있는 정체성과 시점 표현을 분리하는 문제를 해결하기 위해.
단일 입력 이미지에서 관측되지 않은 시점에 대한 연속적인 얼굴 이미지 스펙트럼을 생성함으로써 인간과 유사한 다중 시점 인식을 모방하기 위해.
분리된 표현 학습을 통해 더 구분력 있는 정체성 특징을 학습함으로써 얼굴 인식 정확도를 향상시키기 위해.
학습 중에 관측되지 않은 시점에 대한 얼굴 이미지의 보간 및 예측을 가능하게 하여 인간의 추론 능력을 모방하기 위해.

제안 방법

MVP는 두 가지 유형의 은닉 뉴런을 사용한다: 정체성 표현을 위한 결정론적 뉴런과 시점 표현을 위한 확률론적 뉴런.
확률론적 뉴런은 균일한 사전 분포에서 샘플링되며, 이는 단일 입력에서 다양한 시점 출력을 생성할 수 있도록 한다.
정규화 항은 유사한 시점에 해당하는 이미지들이 유사한 시점 표현을 가지도록 보장하여 순서 있는 다중 시점 생성을 가능하게 한다.
네트워크는 데이터의 로그우도에 대한 변동형 하한을 최대화함으로써 역전파를 통해 훈련된다.
학습 절차는 확률 모델에서의 EM 업데이트를 표준 전방 및 역방향 전파 단계로 변환한다.
특징 맵에 결정론적 및 확률론적 필터를 적용함으로써 모델을 컨볼루션 아키텍처로 확장할 수 있다.

실험 결과

연구 질문

RQ13D 감독 없이도 딥 신경망이 2D 얼굴 이미지에서 정체성과 시점 표현을 분리할 수 있는가?
RQ2해당 네트워크는 단일 입력 이미지에서 연속적인 다중 시점 얼굴 이미지 스펙트럼을 생성할 수 있는가?
RQ3모델은 훈련 중에 관측되지 않은 시점에 대해 얼굴 이미지를 보간하고 예측할 수 있는가?
RQ4분리된 정체성 표현은 얼굴 인식 성능 향상에 기여하는가?
RQ5단일 2D 이미지에서 인간과 유사한 추론 능력을 발휘하여 타당한 새로운 시점의 이미지를 생성할 수 있는가?

주요 결과

MVP가 학습한 정체성 특징는 최신 기준 방법들보다 MultiPIE 데이터셋에서 뛰어난 성능을 달성한다.
MVP는 0°, 30°, 60° 이미지로 훈련된 후 15° 및 45°와 같은 관측되지 않은 시점의 이미지를 성공적으로 재구성한다.
모델은 연속적인 다중 시점 생성을 보이며, 출력이 시점 간에 부드럽게 전이됨을 보여준다.
동일한 사람의 정체성 특징는 다양한 시점에서 일관되며, 동일한 시점에 대해 다양한 정체성 간에 시점 특징는 일관성을 유지한다.
입력이 관측되지 않은 시점에서 온 경우조차도 모델은 전체 스펙트럼의 시점을 생성할 수 있어 추론과 유사한 일반화 능력을 보인다.
확률론적 뉴런의 사용은 단일 입력에서 다양하고 시점에 특화된 출력을 가능하게 하며, 결정론적 뉴런은 정체성 불변성을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.