QUICK REVIEW

[논문 리뷰] Text2Video: Text-driven Talking-head Video Synthesis with Phonetic Dictionary

Sibo Zhang, Jiahong Yuan|arXiv (Cornell University)|2021. 04. 29.

Generative Adversarial Networks and Image Synthesis참고 문헌 11인용 수 3

한 줄 요약

이 논문은 음성 기반 방법의 단점을 보완하기 위해 발음 기반의 포즈 사전과 GAN 기반 생성기를 사용하여 텍스트 기반 대화형 헤드 영상 생성 방법을 제안한다. 이는 데이터, 학습, 추론 비용을 크게 줄이며 고해상도 영상 합성을 가능하게 한다. 제안된 방법은 영역의 다양성, 효율성, 유연성 면에서 최신의 음성 기반 방법들을 능가한다.

ABSTRACT

With the advance of deep learning technology, automatic video generation from audio or text has become an emerging and promising research topic. In this paper, we present a novel approach to synthesize video from the text. The method builds a phoneme-pose dictionary and trains a generative adversarial network (GAN) to generate video from interpolated phoneme poses. Compared to audio-driven video generation algorithms, our approach has a number of advantages: 1) It only needs a fraction of the training data used by an audio-driven approach; 2) It is more flexible and not subject to vulnerability due to speaker variation; 3) It significantly reduces the preprocessing, training and inference time. We perform extensive experiments to compare the proposed method with state-of-the-art talking face generation methods on a benchmark dataset and datasets of our own. The results demonstrate the effectiveness and superiority of our approach.

연구 동기 및 목표

음성 기반 대화형 얼굴 생성 기술의 한계, 즉 높은 데이터 요구량과 화자 변동에 대한 민감성 문제를 해결하기 위해.
음성 입력과 관련된 사전 처리에 의존도를 줄이고자 텍스트 기반 영상 생성 방법을 개발하기 위해.
음성 특징 대신 발음-포즈 사전을 활용하여 학습 및 추론 효율성을 향상시키기 위해.
다양한 화자와 입력 텍스트에 대해 강건하고 고품질의 영상 합성을 달성하기 위해.

제안 방법

언어 단위(발음)를 해당하는 얼굴 운동 포즈로 매핑하는 발음-포즈 사전을 구축한다.
발음-포즈 사전에서 유도된 보간된 포즈로부터 영상 프레임을 생성하는 조건부 생성 적대 신경망(cGAN)을 훈련시킨다.
텍스트 입력을 통해 발음 시퀀스를 추론하고, 이를 포즈 임베딩으로 매핑하여 영상 생성에 활용한다.
영상 합성 중 부드러운 전환을 위해 발음 포즈 간 보간을 적용한다.
발음의 분리 표현을 활용하여 언어적 내용과 화자 정체성을 분리한다.
적대적 훈련을 통해 생성된 대화형 헤드 영상의 현실감과 시간적 일관성을 향상시킨다.

실험 결과

연구 질문

RQ1음성 기반 방법과 비교해 데이터 및 계산 비용을 크게 줄였을 때, 텍스트 기반 접근이 유사하거나 더 높은 영상 품질을 달성할 수 있는가?
RQ2발음-포즈 사전가 표현 가능한 얼굴 운동을 충분히 포괄할 수 있는가?
RQ3음성 기반 기준 대비 제안된 방법이 화자 변동에 얼마나 덜 민감한가?
RQ4최신 모델들과 비교해 추론 속도 및 학습 효율성 측면에서 성능은 어떠한가?
RQ5다양한 텍스트 입력에 대해 일반화되며 생성된 영상의 시간적 일관성을 유지할 수 있는가?

주요 결과

제안된 방법은 음성 기반 접근에 비해 훈련 데이터 요구량을 극적으로 줄여 데이터 의존도를 크게 감소시켰다.
언어적 내용과 화자 고유의 특징을 분리함으로써 화자 변동에 대해 뛰어난 강건성을 보였다.
음성 특징 추출 및 정렬 단계를 제거함으로써 학습 및 추론 시간이 크게 단축되었다.
기본 및 자체 구축 데이터셋에서의 광범위한 실험을 통해, 제안된 방법은 최신의 음성 기반 및 텍스트 기반 대화형 얼굴 생성 모델보다 영상 품질과 효율성 면에서 뛰어난 성능을 보였다.
발음-포즈 사전의 활용으로 부드러운 얼굴 운동 전환과 향상된 시간적 일관성을 갖춘 고해상도 영상 합성을 실현했다.
다양한 텍스트 입력에 대해 우수한 일반화 능력을 유지하며 뛰어난 성능을 유지함을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.