Skip to main content
QUICK REVIEW

[논문 리뷰] ObamaNet: Photo-realistic lip-sync from text

Rithesh Kumar, Jose Sotelo|arXiv (Cornell University)|2017. 12. 06.
Speech and Audio Processing참고 문헌 5인용 수 85
한 줄 요약

ObamaNet은 입력 텍스트를 음성으로 변환하고 사람의 사진처럼 동기화된 리프-싱크 비디오를 생성하는 완전 학습 가능한 아키텍처로, 오바마 비디오에서 시연되었습니다.

ABSTRACT

We present ObamaNet, the first architecture that generates both audio and synchronized photo-realistic lip-sync videos from any new text. Contrary to other published lip-sync approaches, ours is only composed of fully trainable neural modules and does not rely on any traditional computer graphics methods. More precisely, we use three main modules: a text-to-speech network based on Char2Wav, a time-delayed LSTM to generate mouth-keypoints synced to the audio, and a network based on Pix2Pix to generate the video frames conditioned on the keypoints.

연구 동기 및 목표

  • 임의의 텍스트에서 음성과 입술 싱크 비디오를 생성하는 것을 목표로 한다.
  • 전통적인 컴퓨터 그래픽 방법을 피하기 위해 신경 모듈을 활용한다.
  • 전사와 함께 근접 촬영 말하는 비디오에서 학습 가능하게 한다.
  • 프레임 단위로 생성된 음성에 맞춘 입 모양의 움직임을 생성한다.

제안 방법

  • Char2Wav에 기반한 음성 합성 모듈을 사용하여 입력 텍스트에서 음성을 합성한다.
  • 오디오 특징으로부터 입 모양의 키포인트 표현을 예측하기 위한 시간 지연 LSTM.
  • 정규화된 입 모양 키포인트에 대해 PCA를 적용하여 입 모양의 축약 표현을 얻는다.
  • 입 모양 키포인트와 입술 윤상에 조건화된 Pix2Pix 기반 네트워크를 이용한 비디오 생성.
  • 입술 윤곽이 있는 잘려진 입 부분이 입력으로 주어지며; 출력은 입 영역이 보정된 전체 얼굴 프레임이다.
  • GAN 목표 없이 픽셀 공간 재구성을 위한 L1 손실에 의존하는 학습.

실험 결과

연구 질문

  • RQ1단일 신경 파이프라인이 임의의 텍스트로부터 음성과 입술 싱크 비디오를 모두 생성할 수 있는가?
  • RQ2수동 그래픽 방법 없이 신경 접근이 합성 음성과 입 모양 움직임을 얼마나 잘 일치시킬 수 있는가?
  • RQ3새로운 타깃에 일반화하기 위하여 근접 촬영 말하는 비디오 모음에서 학습하는 것이 가능한가?
  • RQ4실제적인 입 모양을 생성하는 데 있어 키포인트 기반 조건화의 역할은 무엇인가?

주요 결과

  • 음성-비디오로의 변환을 완전 신경망으로 구현한 시스템이 세 가지 모듈(TTS, 입 모양 키포인트 예측, 비디오 인페인팅)을 사용하여 시연된다.
  • 키포인트는 정규화되고 PCA를 통해 축약되어 오디오와 연관된 입 모양의 핵심 다이나믹스를 포착한다.
  • 비디오 생성 네트워크는 명시적 시간 일관성 손실 없이 Pix2Pix를 사용하지만 프레임별로 일관된 입 움직임을 생성한다.
  • 이 접근법은 트랜스크립트가 있는 오바마 비디오 데이터에서 학습되어 음성과 동기화된 입 움직임을 합성할 수 있다.
  • 프레임은 프레임당 병렬로 생성되며 입 키포인트에 조건화되고 대상 비디오 컨텍스트에 맞추기 위해 비정규화된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.