QUICK REVIEW

[논문 리뷰] End-to-End Speech-Driven Facial Animation with Temporal GANs

Konstantinos Vougioukas, Stavros Petridis|arXiv (Cornell University)|2018. 05. 23.

Face recognition and analysis참고 문헌 24인용 수 40

한 줄 요약

이 논문은 원시 오디오와 단일 정지 이미지를 직접 사용하여 주체 독립적인 말하는-head 비디오를 생성하는 엔드-투-엔드 시간 GAN을 제시한다. 동기화된 입 모양과 자연스러운 얼굴 표정을 handcrafted features 없이 생성한다.

ABSTRACT

Speech-driven facial animation is the process which uses speech signals to automatically synthesize a talking character. The majority of work in this domain creates a mapping from audio features to visual features. This often requires post-processing using computer graphics techniques to produce realistic albeit subject dependent results. We present a system for generating videos of a talking head, using a still image of a person and an audio clip containing speech, that doesn't rely on any handcrafted intermediate features. To the best of our knowledge, this is the first method capable of generating subject independent realistic videos directly from raw audio. Our method can generate videos which have (a) lip movements that are in sync with the audio and (b) natural facial expressions such as blinks and eyebrow movements. We achieve this by using a temporal GAN with 2 discriminators, which are capable of capturing different aspects of the video. The effect of each component in our system is quantified through an ablation study. The generated videos are evaluated based on their sharpness, reconstruction quality, and lip-reading accuracy. Finally, a user study is conducted, confirming that temporal GANs lead to more natural sequences than a static GAN-based approach.

연구 동기 및 목표

원시 오디오와 정지 이미지를 손으로 설계한 특징 없이 현실적인 말하는-head 비디오로 변환하는 엔드-투-엔드 시스템을 시연한다.
입모선 동기화뿐 아니라(blinks, frowns) 자연스러운 얼굴 표정을 시간적 모델링으로 포착한다.
새로운 아이덴티티를 재학습 없이 애니메이션화할 수 있도록 주체 독립성을 보장한다.
비디오 품질, 입모 인식 정확도, 아이덴티티 보존, 사용자 인식 현실감을 평가한다.
ablation 연구를 통해 시간 구성 요소의 기여를 평가하고 정적 기반선과 비교한다.

제안 방법

생성기에는 아이덴티티 인코더, 맥락(오디오) 인코더, 프레임 디코더, 노이즈 생성기를 사용하여 비디오 프레임을 생성한다.
두 개의 식별자 판별기를 도입한다: 각 프레임의 아이덴티티를 현실적으로 강제하는 프레임 디스크리미네이터와 일관되고 오디오에 동기화된 시퀀스를 강제하는 시퀀스 디스크리미네이터.
얼굴의 표정을 보존하기 위한 L1 재구성 손실을 하단부 반면에 제한적으로 추가하고 두 판별기로부터의 적대적 손실와 함께 훈련한다.
실시간 생성을 위한 가변 길이 시퀀스를 처리하는 RNN 기반 생성기를 활용한다.
정체성 보존을 위한 스킵 연결이 있는 U-Net 스타일 프레임 디코더를 사용한다.
GRID 및 TCD-TIMIT 데이터세트에서 PSNR, SSIM, FDBM, CPBD, ACD(아이덴티티), WER(입모 인식)를 사용하여 평가한다.

실험 결과

연구 질문

RQ1원시 오디오를 핸드크래프트(feature)나 후처리 없이 직접 현실적인 말하는-head 비디오로 변환할 수 있는가?
RQ2프레임 디스크리미네이터와 시퀀스 디스크리미네이터를 가진 시간 GAN이 정적 기반선 대비 더 자연스럽고 동기화된 얼굴 모션을 생성하는가?
RQ3새로운 아이덴티티에 일반화하면서 얼굴 아이덴티티를 보존하고 정확한 입모 동기화를 달성할 수 있는가?
RQ4각 구성요소(프레임 디스크리미네이터, 시퀀스 디스크리미네이터, L1 손실)가 재구성 품질, 선명도, 입모인식 정확도에 미치는 영향은 무엇인가?
RQ5최종적으로 생성된 비디오가 사용자 기반 현실감 평가(Turing 테스트)에서 설득력 있는가?

주요 결과

제안된 모델은 높은 프레임 품질을 달성한다(그리드에서 PSNR 27.98, SSIM 0.844) 및 선명도(FDBM 0.114, CPBD 0.277)로 아이덴티티 보존(ACD 1.02e-4) 및 낮은 WER 25.4%를 달성하며 기준선 대비 우수하다.
Ablation 결과는 L1 손실이 PSNR/SSIM을 향상시키지만 아이덴티티 충실도는 저하될 수 있음을 보여준다; Adv_img를 추가하면 선명도가 개선되고; Adv_seq를 추가하면 입모 인식 정확도(WER GRID 25.45%)가 더 향상된다.
두 개의 디스크리미네이터를 가진 시간 GAN은 정적 기준선보다 더 일관된 시퀀스와 더 나은 입모 인식 정확도를 제공한다(GRID WER 25.4% 대 37.2%; ACD는 비슷함).
입모 인식 기반 WER 및 얼굴 검증 ACD는 전체 시간 모델에서 말하는 내용의 정확성과 아이덴티티 보존이 더 우수함을 나타낸다.
GRID 및 TCD-TIMIT에서의 주체 독립 평가를 통해 모델이 눈에 띄지 않는 얼굴에서도 자연스러운 표정(깜박임, 찡그림 등)으로 애니메이션할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.