QUICK REVIEW

[논문 리뷰] ObamaNet: Photo-realistic lip-sync from text

Rithesh Kumar, Jose Sotelo|arXiv (Cornell University)|2017. 12. 06.

Speech and Audio Processing참고 문헌 5인용 수 85

한 줄 요약

ObamaNet은 입력 텍스트를 음성으로 변환하고 사람의 사진처럼 동기화된 리프-싱크 비디오를 생성하는 완전 학습 가능한 아키텍처로, 오바마 비디오에서 시연되었습니다.

ABSTRACT

We present ObamaNet, the first architecture that generates both audio and synchronized photo-realistic lip-sync videos from any new text. Contrary to other published lip-sync approaches, ours is only composed of fully trainable neural modules and does not rely on any traditional computer graphics methods. More precisely, we use three main modules: a text-to-speech network based on Char2Wav, a time-delayed LSTM to generate mouth-keypoints synced to the audio, and a network based on Pix2Pix to generate the video frames conditioned on the keypoints.

연구 동기 및 목표

임의의 텍스트에서 음성과 입술 싱크 비디오를 생성하는 것을 목표로 한다.
전통적인 컴퓨터 그래픽 방법을 피하기 위해 신경 모듈을 활용한다.
전사와 함께 근접 촬영 말하는 비디오에서 학습 가능하게 한다.
프레임 단위로 생성된 음성에 맞춘 입 모양의 움직임을 생성한다.

제안 방법

Char2Wav에 기반한 음성 합성 모듈을 사용하여 입력 텍스트에서 음성을 합성한다.
오디오 특징으로부터 입 모양의 키포인트 표현을 예측하기 위한 시간 지연 LSTM.
정규화된 입 모양 키포인트에 대해 PCA를 적용하여 입 모양의 축약 표현을 얻는다.
입 모양 키포인트와 입술 윤상에 조건화된 Pix2Pix 기반 네트워크를 이용한 비디오 생성.
입술 윤곽이 있는 잘려진 입 부분이 입력으로 주어지며; 출력은 입 영역이 보정된 전체 얼굴 프레임이다.
GAN 목표 없이 픽셀 공간 재구성을 위한 L1 손실에 의존하는 학습.

실험 결과

연구 질문

RQ1단일 신경 파이프라인이 임의의 텍스트로부터 음성과 입술 싱크 비디오를 모두 생성할 수 있는가?
RQ2수동 그래픽 방법 없이 신경 접근이 합성 음성과 입 모양 움직임을 얼마나 잘 일치시킬 수 있는가?
RQ3새로운 타깃에 일반화하기 위하여 근접 촬영 말하는 비디오 모음에서 학습하는 것이 가능한가?
RQ4실제적인 입 모양을 생성하는 데 있어 키포인트 기반 조건화의 역할은 무엇인가?

주요 결과

음성-비디오로의 변환을 완전 신경망으로 구현한 시스템이 세 가지 모듈(TTS, 입 모양 키포인트 예측, 비디오 인페인팅)을 사용하여 시연된다.
키포인트는 정규화되고 PCA를 통해 축약되어 오디오와 연관된 입 모양의 핵심 다이나믹스를 포착한다.
비디오 생성 네트워크는 명시적 시간 일관성 손실 없이 Pix2Pix를 사용하지만 프레임별로 일관된 입 움직임을 생성한다.
이 접근법은 트랜스크립트가 있는 오바마 비디오 데이터에서 학습되어 음성과 동기화된 입 움직임을 합성할 수 있다.
프레임은 프레임당 병렬로 생성되며 입 키포인트에 조건화되고 대상 비디오 컨텍스트에 맞추기 위해 비정규화된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.