QUICK REVIEW

[논문 리뷰] Recover Canonical-View Faces in the Wild with Deep Neural Networks

Zhenyao Zhu, Ping Luo|arXiv (Cornell University)|2014. 04. 14.

Face recognition and analysis참고 문헌 28인용 수 103

한 줄 요약

이 논문은 다양한 자세와 조명 조건에서의 제약 없는 얼굴 이미지에서 표준 정면 뷰 이미지를 복원하기 위해 직접적인 변환 맵핑을 학습하는 딥 러닝 프레임워크를 제안한다. 표준 뷰에 대한 자동 선택 기반 및 구성 요소 기반 CNN을 사용함으로써 개인 내 변동성을 줄이고 개인 간의 구분 능력을 유지하면서 LFW 벤치마크에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Face images in the wild undergo large intra-personal variations, such as poses, illuminations, occlusions, and low resolutions, which cause great challenges to face-related applications. This paper addresses this challenge by proposing a new deep learning framework that can recover the canonical view of face images. It dramatically reduces the intra-person variances, while maintaining the inter-person discriminativeness. Unlike the existing face reconstruction methods that were either evaluated in controlled 2D environment or employed 3D information, our approach directly learns the transformation from the face images with a complex set of variations to their canonical views. At the training stage, to avoid the costly process of labeling canonical-view images from the training set by hand, we have devised a new measurement to automatically select or synthesize a canonical-view image for each identity. As an application, this face recovery approach is used for face verification. Facial features are learned from the recovered canonical-view face images by using a facial component-based convolutional neural network. Our approach achieves the state-of-the-art performance on the LFW dataset.

연구 동기 및 목표

제약 없는 얼굴 이미지에서 자세, 조명, 가림, 저해상도 등의 큰 개인 내 변동성을 해결하기 위해.
3D 모델이나 수동 레이블링에 의존하지 않고 제약 없는 얼굴 이미지에서 표준 뷰로의 변환을 직접 학습하는 딥 러닝 프레임워크를 개발하기 위해.
훈련 중에 각 정체성에 대해 표준 뷰 이미지를 자동으로 선택하거나 합성하여 고비용 수동 레이블링을 피하기 위해.
복원된 표준 뷰 이미지에서 강건한 얼굴 특징을 학습하여 얼굴 인식 성능을 향상시키기 위해.
복원된 표준 얼굴 이미지를 구성 요소 기반 CNN의 입력으로 사용하여 LFW 데이터셋에서 최신 기술 수준의 정확도를 달성하기 위해.

제안 방법

제약 없는 얼굴 이미지에서 복잡한 변동성에 기인한 표준 정면 뷰 표현으로의 변환을 직접 학습하기 위해 딥 네ural 웹을 훈련한다.
각 정체성에 대해 표준 뷰 이미지를 선택하거나 합성하기 위한 자동 측정 기준을 제안하여 수동 레이블링이 필요 없도록 한다.
복원된 표준 뷰 이미지에서 특징을 추출하기 위해 얼굴 구성 요소 기반 컨볼루션 신경망(CNN)을 사용한다.
네트워크가 자세나 조명과 같은 개인에 따라 변하는 요소에서 개인을 구분하는 특징를 분리하는 방식으로 엔드 투 엔드로 훈련 가능한 프레임워크이다.
대규모 제약 없는 얼굴 이미지 데이터셋을 활용하여 훈련 과정을 진행하며, 이미지 품질과 정렬 수준을 기반으로 한 비지도 선택 기반 메커니즘을 통해 표준 뷰를 생성한다.
3D 얼굴 모델이나 명시적 3D 감독을 필요로 하지 않으며, 오직 2D 이미지 데이터와 딥 테처 학습에 의존한다.

실험 결과

연구 질문

RQ13D 감독 없이도 딥 네럴 웹이 제약 없는 야생 이미지에서 표준 정면 얼굴 뷰를 효과적으로 복원할 수 있는가?
RQ2수동 레이블링 없이 각 정체성에 대해 표준 뷰 이미지를 어떻게 자동으로 선택하거나 합성할 수 있는가?
RQ3표준 뷰를 복원함으로써 개인 내 변동성을 어느 정도 줄일 수 있으며, 개인 간의 분류 능력은 유지되는가?
RQ4기존의 딥 러닝 접근 방식에 비해 복원된 표준 뷰 이미지를 사용할 경우 얼굴 인식 정확도가 향상되는가?
RQ5표준 이미지에 비해 복원된 표준 뷰 이미지를 사용할 때 구성 요소 기반 CNN의 성능 향상 정도는 어떠한가?

주요 결과

제안된 방법은 LFW 데이터셋에서 최신 기술 수준의 성능을 달성하여 제약 없는 조건에서의 얼굴 인식 성능을 뛰어나게 한다.
자동 표준 뷰 선택 메커니즘이 수동 레이블링 없이도 고품질의 정면 유사 이미지를 효과적으로 식별하여 확장 가능한 훈련을 가능하게 한다.
복원된 표준 뷰 이미지가 자세나 조명으로 인한 개인 내 변동성을 크게 줄여 특징의 강건성을 향상시킨다.
복원된 표준 뷰 이미지에 기반한 구성 요소 기반 CNN은 원본 제약 없는 이미지에 기반한 표준 CNN보다 더 높은 정확도를 달성한다.
실세계 데이터에 대해 강력한 일반화 능력을 보이며, 저해상도나 부분적으로 가려진 얼굴에 대해서도 효과를 보인다.
명시적 3D 정보를 사용하지 않음에도 불구하고 2D 기반 및 3D 기반 얼굴 복원 방법보다 얼굴 인식 정확도에서 뛰어난 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.