QUICK REVIEW

[논문 리뷰] Talking Face Generation by Conditional Recurrent Adversarial Network

Yang Song, Jingwen Zhu|arXiv (Cornell University)|2018. 04. 13.

Speech and Audio Processing참고 문헌 32인용 수 21

한 줄 요약

이 논문은 조건부 순환 적대적 네트워크를 제안하여 순환 단위 내에서 음성 및 이미지 특징을 동시에 모델링함으로써 고해상도의 말하는 얼굴 영상 영상을 생성하고, 입술 동기화와 부드러운 얼굴 운동을 정확히 구현한다. 공간-시간 및 입술 읽기 판별자들을 도입함으로써, 후처리 없이도 영상의 현실성, 입술 동기화 정확도, 시각적 품질 측면에서 최신 기술을 초월하는 성능을 달성하였으며, VoxCeleb 및 LRW 데이터셋 모두에서 기존 방법들을 능가한다.

ABSTRACT

Given an arbitrary face image and an arbitrary speech clip, the proposed work attempts to generating the talking face video with accurate lip synchronization while maintaining smooth transition of both lip and facial movement over the entire video clip. Existing works either do not consider temporal dependency on face images across different video frames thus easily yielding noticeable/abrupt facial and lip movement or are only limited to the generation of talking face video for a specific person thus lacking generalization capacity. We propose a novel conditional video generation network where the audio input is treated as a condition for the recurrent adversarial network such that temporal dependency is incorporated to realize smooth transition for the lip and facial movement. In addition, we deploy a multi-task adversarial training scheme in the context of video generation to improve both photo-realism and the accuracy for lip synchronization. Finally, based on the phoneme distribution information extracted from the audio clip, we develop a sample selection method that effectively reduces the size of the training dataset without sacrificing the quality of the generated video. Extensive experiments on both controlled and uncontrolled datasets demonstrate the superiority of the proposed approach in terms of visual quality, lip sync accuracy, and smooth transition of lip and facial movement, as compared to the state-of-the-art.

연구 동기 및 목표

정확한 입술 동기화와 부드러운 시간적 전이를 갖춘 현실적인 말하는 얼굴 영상 생성에 도전하는 것.
기존 방법들이 시간적 의존성을 忽略하거나 다양한 얼굴과 음성 입력에 대한 일반화 능력이 부족한 한계를 극복하는 것.
전용 판별자를 활용한 적대적 훈련을 통해 이미지 및 영상의 현실성을 향상시키는 것.
실제 음성 영상 데이터로 훈련된 입술 읽기 판별자를 통해 입술 운동 정확도를 향상시키는 것.
단일 인물 영상 생성에서 자연스러운 얼굴 표정과 머리 자세를 모델링하기 위해 프레임워크를 확장하는 것.

제안 방법

조건부 순환 적대적 네트워크는 순환 단위 내에서 이미지 및 음성 특징을 통합하여 얼굴 및 입술 운동의 시간적 의존성을 모델링한다.
공간-시간 판별자 쌍을 사용하여 개별 프레임의 사진적 현실성과 시퀀스 전체의 영상 수준의 현실성을 강제한다.
입술 읽기 판별자를 도입하여 생성자에 대해 적대적으로 훈련시켜, 입술 운동이 음성 입력과 의미적으로 일치하도록 유도한다.
이전에 생성된 이미지 프레임을 순환 단위에 추가로 입력함으로써, 하이브리드 특징 외에도 자연스러운 자세 및 표정을 모델링하도록 네트워크를 확장한다.
시각적 정밀도를 향상시키기 위해 적대적 손실, 재구성 손실, 인지적 손실을 사용하여 엔드 투 엔드로 프레임워크를 훈련한다.
이 방법은 후처리 단계 없이 MFCC 특징에 직접 작용하며, 영상 안정화 또는 흐림 제거 파이프라인을 필요로 하지 않는다.

실험 결과

연구 질문

RQ1순환 적대적 네트워크는 말하는 얼굴 생성을 위한 얼굴 및 입술 운동의 시간적 의존성을 효과적으로 모델링할 수 있는가?
RQ2입술 읽기 판별자는 픽셀 수준 재구성 외에도 입술 동기화 정확도를 상당히 향상시킬 수 있는가?
RQ3공간-시간 판별자는 추가 후처리 없이 이미지 및 영상의 현실성을 향상시킬 수 있는가?
RQ4프레임워크는 시각적 품질과 운동의 부드러움을 유지하면서도 예측되지 않은 얼굴과 음성에 대해 일반화 가능한가?
RQ5모델은 단일 인물 영상 생성에서 머리 자세 및 표정 변화를 자연스럽게 포착할 수 있는가?

주요 결과

제안된 방법은 생성된 영상에서 63.0%의 top-5 입술 읽기 정확도를 달성하여 실제 영상의 80%에 가까운 성능을 보이며, 강력한 입술 동기화 정밀도를 입증한다.
사용자 연구 결과, 74%의 참가자가 Chung et al. (2017)에 비해 우리 방법의 입술 운동 정확도를 선호하였고, 87%는 Zhou et al. (2019)에 비해 영상의 현실성을 더 선호하였다.
이미지 품질 측면에서 최신 기술 기반 모델들을 능가하였으며, 참가자 73%가 우리 방법이 Chung et al. (2017)보다 아티팩트 및 블러 감소 측면에서 더 높게 평가하였다.
Obama 데이터셋에서 확장된 모델은 자연스러운 머리 자세 및 표정 변화를 갖춘 영상을 성공적으로 생성하였으며, 순차적 생성에서 흔히 발생하는 얼굴 이동 아티팩트를 방지하였다.
영상 안정화 또는 흐림 제거 파이프라인의 필요성을 제거하여 생성자로부터 직접 고품질 결과를 도출하였다.
제거 분석 결과, 입술 읽기 판별자가 입술 동기화 정확도를 상당히 향상시키며, 베이스라인 대비 top-5 정확도에서 25%의 상대적 향상을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.