QUICK REVIEW

[논문 리뷰] 3D GAN Inversion for Controllable Portrait Image Animation

Connor Z. Lin, David B. Lindell|arXiv (Cornell University)|2022. 03. 25.

Generative Adversarial Networks and Image Synthesis인용 수 25

한 줄 요약

요약: 이 논문은 미리 학습된 3D GAN(EG3D)으로 역구성하여 3DMM 기반 표현 제어를 이용해 초상 이미지를 애니메이션 및 편집하고, 다중 시점에 걸친 포즈, 표정, 속성 편집의 일관성 있는 영상 재연출을 가능하게 하는 방법을 제시한다.

ABSTRACT

Millions of images of human faces are captured every single day; but these photographs portray the likeness of an individual with a fixed pose, expression, and appearance. Portrait image animation enables the post-capture adjustment of these attributes from a single image while maintaining a photorealistic reconstruction of the subject's likeness or identity. Still, current methods for portrait image animation are typically based on 2D warping operations or manipulations of a 2D generative adversarial network (GAN) and lack explicit mechanisms to enforce multi-view consistency. Thus these methods may significantly alter the identity of the subject, especially when the viewpoint relative to the camera is changed. In this work, we leverage newly developed 3D GANs, which allow explicit control over the pose of the image subject with multi-view consistency. We propose a supervision strategy to flexibly manipulate expressions with 3D morphable models, and we show that the proposed method also supports editing appearance attributes, such as age or hairstyle, by interpolating within the latent space of the GAN. The proposed technique for portrait image animation outperforms previous methods in terms of image quality, identity preservation, and pose transfer while also supporting attribute editing.

연구 동기 및 목표

상대 시점에서 포즈와 표정 편집을 가능하게 하면서도 아이덴티티를 보존하는 초상 이미지 애니메이션의 동기를 제시한다.
3DMM 기반 감독으로 3D 인식형 GAN(EG3D)을 활용하여 표정을 제어 가능하게 편집한다.
잠재 공간 조작을 통해 연령, 헤어스타일, 성별 등 appearance 속성 편집을 가능하게 한다.
정적 이미지 애니메이션뿐 아니라 비디오 기반의 초상 재연출 파이프라인을 제공한다.
GAN 역구성과 대상 영역 미세조정을 통해 가려짐 문제 및 인페인팅을 해결한다.

제안 방법

대상 이미지에서 3DMM 표현을 추정하고 이를 소스 이미지로 전달하기 위해 DECA를 사용한다.
마스크 기반 손실을 포함하여 표현 편집 영역을 재구성하기 위해 잠재 코드 w를 최적화하여 3D GAN 역구성을 수행한다.
입력 인페인팅된 입 모양을 유지하면서 비 facial 영역에 더 잘 맞추기 위해 역구성 후 GAN 생성기를 미세 조정한다.
EG3D 모델을 대상 포즈 매개변수로 조건화하여 목표 포즈에서 편집된 초상 이미지를 렌더링한다.
StyleFlow를 학습시켜 잠재 코드를 3D GAN의 속성 수정 코드로 매핑하는 방법을 통해 연령, 머리카락, 성별 등의 속성 편집을 애니메이션 파이프라인에 통합한다.

실험 결과

연구 질문

RQ1명시적 3DMM 기반 표현과 포즈 편집이 3D GAN 역구성과 결합되어 다중 시점에 걸친 일관된 초상 애니메이션과 높은 아이덴티티 보존을 달성할 수 있는가?
RQ2표현 편집된 이미지를 3D GAN의 잠재 공간에 임베딩하는 것이 다-view에서의 현실적인 인페인팅과 포즈 렌더링을 가능하게 하는가?
RQ3Semantic 속성 편집(연령, 헤어스타일, 성별)을 잠재 공간 조작을 통해 애니메이션 파이프라인으로 통합할 수 있는가?
RQ43D GAN 기반 접근이 이미지 품질, 아이덴티티 보존 및 포즈 일관성 측면에서 2D-GAN 및 3DMM 기반 베이스라인과 비교해 어떤 차이가 있는가?
RQ5시간적 일관성을 갖춘 비디오 기반의 초상 재연출로 확장 가능한가?

주요 결과

방법	FID ↓	ID ↑	APD ↓	AED ↓
PIRenderer (w/o eyes, w/o pose)	53.916	-	0.250	0.437
PIRenderer (w/o pose)	53.959	-	0.247	0.386
PIRenderer (w/o eyes)	63.844	0.694	0.039	0.424
PIRenderer	64.379	0.700	0.040	0.373
2D GAN (w/o pose)	17.812	-	0.246	0.434
3D GAN (w/o pose)	16.504	-	0.246	0.433
3D GAN	31.176	0.733	0.030	0.433

3D GAN 역구성 파이프라인이 2D-GAN 베이스라인 및 PIRenderer 대비 아이덴티티 보존 및 포즈 일관성을 더 높게 달성한다.
다중 시점에 걸친 일관된 포즈 제어를 가능하게 하면서도 피실험자의 아이덴티티를 보존한다.
잠재 공간 조작을 통한 속성 편집(연령, 머리카락, 성별)을 애니메이션 파이프라인에 통합하여 가능하다.
정량적 결과에서 3D GAN 변형이 베이스라인 대비 FID, 아이덴티티 일관성 및 포즈 정렬 메트릭에서 우수한 성능을 보인다.
비디오 기반 재연출을 지원하며 포즈 추정의 스무딩으로 흔들림을 줄이고 실제적인 가려짐 인페인팅을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.