QUICK REVIEW

[논문 리뷰] Neural Face Editing with Intrinsic Image Disentangling

Zhixin Shu, Ersin Yumer|arXiv (Cornell University)|2017. 04. 13.

Face recognition and analysis참고 문헌 30인용 수 36

한 줄 요약

이 논문은 인-더-와일드 이미지에서 알베도, 노멀, 조명, 알파 매트와 같은 내재적 얼굴 성질을 분리하는 엔드 투 엔드 GAN 기반 프레임워크를 제안한다. 이미지 형성 물리학을 기반으로 한 네트워크 내부의 물리 기반 이미지 형성 모델을 사용하며, 형태, 알베도, 조명에 대한 사전 지식을 강제 적용함으로써, 재조명, 표정 조작, 노화 시뮬레이션과 같은 의미 있는 제어 가능한 편집을 가능하게 한다. 기존 방법에 비해 더 뛰어난 현실감과 정체성 유지 성능을 보인다.

ABSTRACT

Traditional face editing methods often require a number of sophisticated and task specific algorithms to be applied one after the other --- a process that is tedious, fragile, and computationally intensive. In this paper, we propose an end-to-end generative adversarial network that infers a face-specific disentangled representation of intrinsic face properties, including shape (i.e. normals), albedo, and lighting, and an alpha matte. We show that this network can be trained on "in-the-wild" images by incorporating an in-network physically-based image formation module and appropriate loss functions. Our disentangling latent representation allows for semantically relevant edits, where one aspect of facial appearance can be manipulated while keeping orthogonal properties fixed, and we demonstrate its use for a number of facial editing applications.

연구 동기 및 목표

복잡하고 작업에 특화된 파ip라인에 의존하며 일반화 능력이 떨어지는 전통적 얼굴 편집 방법의 한계를 해결하기 위해.
제약이 없는, 인-더-와일드 이미지에서부터 분리된, 압축되고 의미 있는 얼굴 외형의 잠재 다양체를 학습하기 위해.
특정 내재 성분을 조작하면서 다른 성분은 유지함으로써, 엔드 투 엔드로 의미 있는 편집(예: 재조명, 표정 변경, 노화)을 가능하게 하기 위해.
네트워크 아키텍처 내에 미분 가능한 물리 기반 렌더링 모듈을 통합함으로써 분리도 및 현실감을 향상시키기 위해.
명시적인 3D 감독 또는 고비용 데이터 캡처 없이도, 약한 감독과 통계적 사전 지식을 활용하여 편집을 지원하기 위해.

제안 방법

에ncoder-디코더 아키텍처에 버티컬 블록을 포함하여, 알베도, 노멀, 조명(구면 조화 함수), 알파 매트와 같은 얼굴 성질의 분리된 잠재 표현을 학습한다.
네트워크 내부의 전방 렌더링 모듈이 이미지 형성 물리학에 기반한 미분 가능한 셰이딩 모델을 사용하여 유추된 내재 성분에서 이미지를 재구성한다.
통계적 사전 지식을 강제 적용: 노멀에 대해 모러포릭 모델 사전 지식, 알베도에 대해 리티넥스 기반 사전 지식, 조명에 대해 저주파 구면 조화 함수 모델.
재구성된 이미지에 대해 적대적 손실을 적용하여 시각적 품질과 현실감을 향상시킨다.
배치 기반 화이트 셰이딩(Batchwise White Shading, BWS) 손실을 도입하여 색상 일관성을 강화하고 알베도와 조명/셰이딩 간의 분리를 향상시킨다.
알파 매트를 명시적으로 예측하여 배경과의 분리를 가능하게 하며, 배경 세부 정보를 유지하면서도 전경에만 집중적인 편집을 가능하게 한다.

실험 결과

연구 질문

RQ13D 감독 없이도 인-더-와일드 이미지에서 내재적 얼굴 성질의 분리된, 물리적으로 기반을 둔 표현을 깊이 있는 생성 모델이 학습할 수 있는가?
RQ2네트워크 내부의 미분 가능한 렌더링이 분리도 향상과 현실적인 의미 있는 편집을 가능하게 하는가?
RQ3모르포릭 모델, 리티넥스, 구면 조화 함수 등의 물리적 사전 지식 조합이 얼굴 속성의 분리를 얼마나 효과적으로 이끄는가?
RQ4학습된 잠재 공간이 간단한 탐색 또는 특정 잠재 벡터 조작을 통해 재조명, 표정 편집, 노화와 같은 다양한 편집 작업을 지원할 수 있는가?
RQ5정체성 유지와 현실적인 편집을 위해 표준 오토에인코더 기반 접근법에 비해 이 방법이 우수한가?

주요 결과

모델은 제약이 없는 인-더-와일드 이미지에서도 분리된 내재 성분으로부터 고해상도의 시각적 품질과 강력한 정체성 유지 성능을 보이며 얼굴 이미지를 성공적으로 재구성한다.
재조명은 소스 이미지의 조명 벡터를 타겟 이미지로 이동시키며 타겟의 알베도, 노멀, 세부 정보를 유지함으로써 현실적인 조명 전이를 달성한다.
알베도 및 노멀 성분을 따라 잠재 공간 탐색을 통해 표정 편집을 수행하면 자연스러운 미소가 생성되며, 탐색 정규화 파라미터 λ 조절을 통해 더 강한 표정도 구현할 수 있다.
노화는 알베도 및 노멀의 잠재 공간을 노화된 얼굴에 해당하는 모드로 이동시켜 효과적으로 시뮬레이션할 수 있으며, 자세, 안경, 조명을 유지하면서 설득력 있는 노화 진행을 생성한다.
배치 기반 화이트 셰이딩(BWS) 손실의 사용은 특히 알베도와 조명 효과 간 분리를 향상시키며, 정성적 비교 및 추론 실험을 통해 그 효과를 입증한다.
동일한 아키텍처와 가중치를 사용하여 다양한 편집 작업에 일반화되며, 학습된 분리된 다양체의 강건성과 표현력을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.