QUICK REVIEW

[논문 리뷰] Reconstruction for Feature Disentanglement in Pose-invariant Face Recognition

Xi Peng, Yu Xiang|arXiv (Cornell University)|2017. 02. 10.

Face recognition and analysis참고 문헌 43인용 수 18

한 줄 요약

이 논문은 정방향 이미지에서 비정방향 시야를 합성하는 합성 네트워크, 신원과 자세 특징을 학습하는 다중 소스 다중 작업 DNN, 그리고 신원과 자세를 분리하는 시아모이스 네트워크를 사용하여 자세에 영향을 받지 않는 얼굴 인식 방법을 제안한다. 이 방법은 MultiPIE, LFW, 300WLP 등의 데이터셋에서 큰 자세 변화에 특히 뛰어난 성능을 달성한다.

ABSTRACT

Deep neural networks (DNNs) trained on large-scale datasets have recently achieved impressive improvements in face recognition. But a persistent challenge remains to develop methods capable of handling large pose variations that are relatively under-represented in training data. This paper presents a method for learning a feature representation that is invariant to pose, without requiring extensive pose coverage in training data. We first propose to use a synthesis network for generating non-frontal views from a single frontal image, in order to increase the diversity of training data while preserving accurate facial details that are critical for identity discrimination. Our next contribution is a multi-source multi-task DNN that seeks a rich embedding representing identity information, as well as information such as pose and landmark locations. Finally, we propose a Siamese network to explicitly disentangle identity and pose, by demanding alignment between the feature reconstructions through various combinations of identity and pose features obtained from two images of the same subject. Experiments on face datasets in both controlled and wild scenarios, such as MultiPIE, LFW and 300WLP, show that our method consistently outperforms the state-of-the-art, especially on images with large head pose variations.

연구 동기 및 목표

학습 데이터에서 부족하게 표현되는 큰 자세 변화에 대응하는 얼굴 인식 문제에 대응한다.
광범위한 자세 레이블이 붙은 학습 데이터가 필요 없이 자세에 대해 불변인 특징 표현을 개발한다.
데이터 증강 과정에서 신원 식별에 핵심적인 고해상도 얼굴 세부 정보를 유지한다.
다중 작업 딥 네트워크를 통해 동시에 신원, 자세, 랜드마크 특징을 학습한다.
시아모이스 네트워크를 통해 신원과 자세 특징를 명시적으로 분리하여 자세 변화에 대한 강건성을 향상시킨다.

제안 방법

단일 정방향 입력에서 현실적인 비정방향 얼굴 이미지를 생성하는 합성 네트워크를 사용하여 학습 데이터의 다양성을 높인다.
얼굴 특징에서 신원, 자세, 랜드마크 위치를 동시에 예측하는 다중 소스 다중 작업 딥 신경망을 훈련한다.
동일한 주제의 두 이미지의 신원 및 자세 특징를 조합하여 특징 재구성을 정렬하는 시아모이스 네트워크를 설계한다.
신원 특징는 공유하지만 자세 특징는 다를 경우 일관된 재구성을 요구함으로써 분리 구조를 강제한다.
분리된 특징를 활용하여 추론 과정에서 예상치 못한 자세 변화에 대한 일반화 능력을 향상시킨다.
재구성, 분류, 대비 손실 목적 함수의 조합을 사용하여 전체 파이프라인을 엔드 투 엔드로 최적화한다.

실험 결과

연구 질문

RQ1단일 정방향 이미지에서의 데이터 합성은 큰 자세 변화에 대비한 학습 데이터 증강에 효과적인가?
RQ2다중 작업 네트워크가 신원, 자세, 랜드마크 특징를 동시에 학습하면서도 분리 구조를 유지할 수 있는 정도는 어느 정도인가?
RQ3시아모이스 네트워크를 통한 명시적 특징 분리가 자세에 영향을 받지 않는 얼굴 인식 성능을 향상시키는가?
RQ4자세 변동성이 높은 데이터셋에서 제안된 방법은 기존 최고 수준의 접근 방식과 비교해 어떤가?
RQ5모델은 자세 변화가 극심하고 다양한 실외 환경에서도 일반화 가능한가?

주요 결과

제안된 방법은 특히 큰 자세 변화에 대해 MultiPIE 데이터셋에서 최고 성능을 달성한다.
LFW 데이터셋에서 모델은 강력한 일반화 능력을 보이며, 제로샷 자세 일반화에서 기존 방법들을 능가한다.
300WLP 데이터셋 결과는 실생활에서의 제약 없는 자세 변화에 대한 개선된 강건성을 확인한다.
시아모이스 네트워크의 분리 메커니즘이 자세 변화가 심할수록 특징 품질을 크게 향상시킨다.
합성 네트워크는 신원 식별에 핵심적인 세부 정보를 유지하여 생성 모델에서 흔히 발생하는 흐림이나 왜곡을 방지한다.
다중 작업 학습 프레임워크는 신원, 자세, 랜드마크 예측 간 표현을 공유함으로써 더 나은 특징 학습을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.