QUICK REVIEW

[논문 리뷰] Generative Adversarial Talking Head: Bringing Portraits to Life with a Weakly Supervised Neural Network

Hai Pham, Yuting Wang|arXiv (Cornell University)|2018. 03. 21.

Generative Adversarial Networks and Image Synthesis참고 문헌 52인용 수 29

한 줄 요약

이 논문은 행동 단위(AU) 계수를 직접 사용하여 이미지 픽셀을 조작함으로써 정적 초상화를 애니메이션으로 변환하는 약한 지도 학습 기반 생성 적대 신경망인 GATH를 소개한다. 이 모델은 템플릿이나 쌍화된 데이터 없이도 정체성과 얼굴 세부 정보를 유지하면서 최신 기술 수준의 성능을 달성한다. AU 추정 정확도와 함께, 단일 생성 적대 학습 프레임워크 내에서 정체성과 표현을 분리함으로써 템플릿 및 대상 없이 얼굴 표정 편집이 가능하다.

ABSTRACT

This paper presents Generative Adversarial Talking Head (GATH), a novel deep generative neural network that enables fully automatic facial expression synthesis of an arbitrary portrait with continuous action unit (AU) coefficients. Specifically, our model directly manipulates image pixels to make the unseen subject in the still photo express various emotions controlled by values of facial AU coefficients, while maintaining her personal characteristics, such as facial geometry, skin color and hair style, as well as the original surrounding background. In contrast to prior work, GATH is purely data-driven and it requires neither a statistical face model nor image processing tricks to enact facial deformations. Additionally, our model is trained from unpaired data, where the input image, with its auxiliary identity label taken from abundance of still photos in the wild, and the target frame are from different persons. In order to effectively learn such model, we propose a novel weakly supervised adversarial learning framework that consists of a generator, a discriminator, a classifier and an action unit estimator. Our work gives rise to template-and-target-free expression editing, where still faces can be effortlessly animated with arbitrary AU coefficients provided by the user.

연구 동기 및 목표

단일 AU 계수를 제어 신호로 사용하여 정적 초상화에서 자동으로 고정밀도 얼굴 표정을 합성하는 것.
쌍화된 원본-대상 이미지 또는 통계적 얼굴 모델이 필요한 이전 방법의 한계를 극복하는 것.
원본 이미지와 대상 프레임이 서로 다른 개인으로부터 온 비쌍화된 데이터에서 학습함으로써, AU 추정과 정체성 분류를 통한 약한 지도 학습을 사용하는 것.
단일 엔드 투 엔드 딥 신경망 내에서 정체성과 표현 표현을 분리하는 것.
3D 메쉬나 텍스처 왜곡에 의존하지 않고도 현실적이고 사진 수준의 얼굴 애니메이션을 달성하는 것.

제안 방법

생성자 네트워크는 입력 AU 계수를 기반으로 원본 초상화를 새로운 표정으로 변환하는 것을 학습하며, 직접적으로 이미지 픽셀을 조작한다.
판별자 네트워크는 실제 얼굴 이미지와 생성된 이미지를 구분하도록 학습되어, 생성 적대 학습을 통해 사진 수준의 현실성을 강제한다.
정체성 분류기는 함께 학습되어 생성된 얼굴의 정체성을 인식함으로써, 다양한 표정 간에도 정체성 유지가 이루어지도록 보장한다.
행동 단위 추정기(AUE)는 AU 강도 예측을 통해 합성된 프레임과 목표 프레임 간의 표현력 유사도를 측정함으로써 약한 지도 학습을 제공한다.
생성자, 판별자, 분류기는 은닉층을 공유하여 정체성과 표현의 분리가 이루어지는 동시에 공동 최적화가 가능하도록 한다.
비쌍화된 데이터에서 학습되며, 정체성 레이블이 있는 원본 이미지와 AU 계수가 있는 목표 프레임이 사용되어, 다양한 정체성 간의 일반화가 가능하다.

실험 결과

연구 질문

RQ1딥 생성 모델은 단일 정적 초상화와 AU 계수만을 제어 신호로 사용하여 현실적인 얼굴 표정을 합성할 수 있는가?
RQ2원본 및 목표 이미지가 서로 다른 개인으로부터 온 비쌍화된 데이터에서 학습할 때, 정체성과 표현의 분리가 가능한가?
RQ3쌍화된 데이터나 3D 얼굴 모델이 필요 없이, 보조 분류기와 AU 추정을 포함한 생성 적대 학습이 얼굴 애니메이션의 정밀도를 향상시킬 수 있는가?
RQ4표현 합성 과정에서 얼굴 기하학, 피부 톤, 헤어 스타일과 같은 정체성 특징을 어느 정도 유지하는가?
RQ5모델은 템플릿 및 목표 없이 표정 편집이 가능하며, 임의의 표정을 중성화할 수 있는가?

주요 결과

전체 GATH 모델은 병합된 테스트 세트에서 평균 AU 추정 오차 0.477을 기록하여, 베이스라인 모델인 GATH-DC(0.486)와 GATH-C(0.481)를 초월했다.
클래스 간 합성에서 GATH는 AU 강도 추정에 대해 RMSE 0.579를 기록하여, GATH-C(0.583)와 GATH-DC(0.587)를 뛰어넘었다.
정성적 결과에서는 GATH가 눈 깜빡임, 입 닫힘과 같은 복잡한 표정을 비중립 원본 이미지에서도 성공적으로 유추해내는 것으로 나타났다.
표현 억제 실험에서 0의 AU 계수를 제공하면 중성 얼굴이 생성되어, 정체성과 표현의 성공적인 분리가 확인되었다.
CelebA 및 LFW 데이터셋의 샘플을 통해 다양한 성별, 피부 톤, 헤어 스타일을 가진 정체성 간의 일반화 능력이 입증되었다.
높은 현실성에도 불구하고, 모델은 얼굴 윤곽 및 가장자리 부근에서 질감의 동적 범위 손실과 색상 노이즈를 보이며 향상 여지가 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.