[논문 리뷰] Talking Face Generation by Adversarially Disentangled Audio-Visual Representation
이 논문은 음성 또는 영상 입력으로부터 고해상도이자 신원을 유지하는 대화형 얼굴 생성을 위한 분리된 청각-시각 표현 프레임워크를 제안한다. 연관성과 적대적 훈련을 통해 함께 학습된 구분 가능한 음성 및 신원 표현을 통해, 이 방법은 기존 연구를 능가하는 입술 동기화 정확도와 현실감을 달성한다. 이는 생성 품질과 입술 읽기, 청각-시각 검색과 같은 후행 작업 모두에서 뛰어난 성능을 발휘한다.
Talking face generation aims to synthesize a sequence of face images that correspond to a clip of speech. This is a challenging task because face appearance variation and semantics of speech are coupled together in the subtle movements of the talking face regions. Existing works either construct specific face appearance model on specific subjects or model the transformation between lip motion and speech. In this work, we integrate both aspects and enable arbitrary-subject talking face generation by learning disentangled audio-visual representation. We find that the talking face sequence is actually a composition of both subject-related information and speech-related information. These two spaces are then explicitly disentangled through a novel associative-and-adversarial training process. This disentangled representation has an advantage where both audio and video can serve as inputs for generation. Extensive experiments show that the proposed approach generates realistic talking face sequences on arbitrary subjects with much clearer lip motion patterns than previous work. We also demonstrate the learned audio-visual representation is extremely useful for the tasks of automatic lip reading and audio-video retrieval.
연구 동기 및 목표
- 음성 입력에 정확하게 동기화되면서도 신원을 유지하는 임의의 주제에 대한 대화형 얼굴 생성을 가능하게 하기 위해.
- 깊이 학습된 표현을 통해 대화형 얼굴 시퀀스에서 주제별 신원과 음성 관련 콘텐츠를 분리하기 위해.
- 청각-시각 음성 인식과 청각-시각 동기화를 종단 간 생성 프레임워크로 통합하기 위해.
- 분리된 표현을 통해 자동 입술 읽기 및 음성-영상 검색과 같은 후행 작업 성능을 향상시키기 위해.
- 데이터 기반 대화형 얼굴 생성에서 결합된 신원과 음성 정보의 과제를 해결하기 위해.
제안 방법
- 단어-ID 레이블을 감독 신호로 사용하여 영상에서의 입술 읽기 결과와 음성에서의 음성 인식 결과를 정렬함으로써, 공동 청각-시각 임베딩 공간을 학습한다.
- 신원(사람-ID) 표현에서 음성 콘텐츠(단어-ID) 표현을 분리하기 위해 적대적 훈련을 사용하며, 이로써 후자가 최소한의 음성 정보를 포함하도록 보장한다.
- 이중 인코더 아키텍처가 단일 기준 이미지에서 신원 특징과 음성 또는 영상 클립에서 음성 콘텐츠 특징을 추출한다.
- 생성망 네트워크는 분리된 신원 및 음성 콘텐츠 특징을 조합하여 얼굴 시퀀스를 합성하며, 현실감을 향상시키기 위해 GAN 손실을 사용한다.
- 공통 분류기와 도메인-적대적 훈련을 사용하여 특징의 분리도 및 주제 간 일반화 능력을 향상시킨다.
- 특징의 구분 능력을 향상시켜 검색 및 입술 읽기 작업 성능을 향상시키기 위해 대비 손실을 적용한다.
실험 결과
연구 질문
- RQ1임의의 주제에서 고품질의 대화형 얼굴 생성을 가능하게 하기 위해 분리된 청각-시각 표현을 학습할 수 있는가?
- RQ2음성과 영상의 양방향 음성 입력을 서로 바꿔가며 신원 유지 얼굴 생성의 가이드로 사용할 수 있는가?
- RQ3신원과 음성 콘텐츠의 적대적 분리가 입술 동기화 정확도와 시각적 품질을 향상시키는가?
- RQ4학습된 표현이 자동 입술 읽기 및 음성-영상 검색 성능에 어느 정도 향상시키는가?
- RQ5공동 청각-시각 표현 학습이 얼굴 운동 생성의 강건성과 분리도를 향상시키는가?
주요 결과
- 제안된 방법은 LRW 데이터셋에서 입술 읽기 성능에서 최신 기술 수준을 달성하였으며, 구분 가능한 공동 청각-시각 표현 덕분에 인식 정확도가 향상되었다.
- 적대적 분리로 인해 신원 인코더에서의 음성 콘텐츠 유출이 테스트 샘플에서 분류 정확도 기준 27.8%에서 9.7%로 감소하여 효과적인 분리도를 확인하였다.
- 정성적 결과에서 공통 분류기와 적대적 훈련을 조합한 것이 베이스라인 대비 입술 운동 지속 시간과 명료도를 크게 향상시켰다.
- 청각-시각 매칭 검색 성능은 R@1 = 84.2%, R@10 = 96.7%, Median Rank = 2.1을 기록하여 강력한 특징 정렬을 나타냈다.
- 입술 동기화 품질이 향상되었으며, 분리 후 생성된 결과와 진짜 라벨 간의 평균 L2-노름 편차가 감소하였다.
- 프레임워크는 음성 또는 영상 입력에서 종단 간 생성을 가능하게 하여 입력 모odal의 강건성과 유연성을 입증하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.