QUICK REVIEW

[논문 리뷰] Hierarchical Cross-Modal Talking Face Generationwith Dynamic Pixel-Wise Loss

Lele Chen, Ross K. Maddox|arXiv (Cornell University)|2019. 05. 09.

Face recognition and analysis참고 문헌 35인용 수 27

한 줄 요약

이 논문은 음성에서 얼굴 랜드마크를 먼저 추론하고, 이를 조건으로 영상 프레임을 생성함으로써 입술 동기화와 노이즈 및 자세 변화에 대한 강건성을 크게 향상시키는 계층적 캐스케이드 GAN 프레임워크를 제안한다. 이 방법은 주의 메커니즘을 갖춘 동적 조절 픽셀 단위 손실과 회귀 기반 판별자 도입으로, LRW, GRID, VoxCeleb 및 TCD 데이터셋에서 정량적·정성적 평가 모두에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

We devise a cascade GAN approach to generate talking face video, which is robust to different face shapes, view angles, facial characteristics, and noisy audio conditions. Instead of learning a direct mapping from audio to video frames, we propose first to transfer audio to high-level structure, i.e., the facial landmarks, and then to generate video frames conditioned on the landmarks. Compared to a direct audio-to-image approach, our cascade approach avoids fitting spurious correlations between audiovisual signals that are irrelevant to the speech content. We, humans, are sensitive to temporal discontinuities and subtle artifacts in video. To avoid those pixel jittering problems and to enforce the network to focus on audiovisual-correlated regions, we propose a novel dynamically adjustable pixel-wise loss with an attention mechanism. Furthermore, to generate a sharper image with well-synchronized facial movements, we propose a novel regression-based discriminator structure, which considers sequence-level information along with frame-level information. Thoughtful experiments on several datasets and real-world samples demonstrate significantly better results obtained by our method than the state-of-the-art methods in both quantitative and qualitative comparisons.

연구 동기 및 목표

노이즈가 있는 음성과 다양한 얼굴 자세에 대해 강건하고 사진처럼 사실적인 시간적으로 일관된 대화형 얼굴을 생성하는 데 도전한다.
중간 단계로 고수준의 얼굴 랜드마크 표현을 도입함으로써 음성과 관련 없는 시각적 동작(예: 머리 움직임, 카메라 각도) 간의 허구적 상관관계를 줄인다.
다중 모odal RNN 생성자로 프레임 간 의존성을 모델링하여 시간적 일관성을 향상시키고 픽셀 진동을 줄인다.
주목적 메커니즘을 통해 음성-시각 상관 영역(예: 입술 움직임)에 집중하기 위해 동적 조절 픽셀 단위 손실을 도입한다.
프레임 수준 및 시퀀스 수준 특징을 동시에 평가하는 새로운 회귀 기반 판별자를 도입하여 현실감과 동기화를 향상시킨다.

제안 방법

캐스케이드 GAN 아키텍처를 사용: 음성 → 얼굴 랜드마크(음성-랜드마크 네트워크(AT-net)를 통한) → 영상 프레임(MMCRNN 생성자), 음성-랜드마크 및 랜드마크-이미지 매핑을 분리한다.
이웃 프레임 간 시간적 의존성을 모델링하기 위해 다중 모달 컨볼루션-순환 신경망(MMCRNN) 생성자를 사용하여 운동의 부드러움을 향상시킨다.
주의 맵에 기반해 손실을 적응적으로 가중하는 동적 조절 픽셀 단위 손실(DAL)을 도입하여 음성-시각 상관 영역(예: 입술)에 집중한다.
시각적 동작이 말과 가장 관련이 높은 영역을 강조하기 위해 주목적 메커니즘을 적용하여 관련 없는 움직임에 대한 집중을 줄인다.
프레임 수준의 픽셀 변동성과 시퀀스 수준의 시간적 일관성을 모두 평가하는 회귀 기반 판별자(RD)를 제안하여 현실감과 동기화를 향상시킨다.
정합성과 정렬을 보장하기 위해 적대적 손실, 인지적 손실, 랜드마크 재구성 손실의 조합을 사용해 모델을 훈련시킨다.

실험 결과

연구 질문

RQ1얼굴 랜드마크를 중간 표현으로 사용하는 계층적 접근이 노이즈가 있는 음성과 다양한 얼굴 자세 조건에서 대화형 얼굴 생성의 강건성을 향상시키는가?
RQ2주의 메커니즘을 갖춘 동적 조절 픽셀 단위 손실이 모델의 집중을 음성-시각 상관 영역으로 향하게 하고 잡음 요소를 줄이는가?
RQ3프레임 수준 및 시퀀스 수준 특징을 동시에 평가하는 회귀 기반 판별자가 시간적 일관성과 현실감을 향상시키는가?
RQ4각 구성 요소(DMA, MMCRNN, DAL, RD)가 이미지 품질과 입술 동기화 측면에서 전체 성능에 기여하는 정도는 어떠한가?
RQ5모델이 다양한 머리 자세와 음성 조건에서 훈련 데이터에 없던 얼굴(예: 만화 캐릭터, 동물 캐릭터)으로 일반화하는 데까지 어느 정도 성능을 발휘하는가?

주요 결과

제안된 ATVGnet 모델은 모든 데이터셋에서 가장 높은 사용자 선호도 점수(평균 8.7/10)를 기록하며, 인지적 품질과 현실감 측면에서 최신 기술 수준의 방법들을 능가한다.
LRW 및 GRID 데이터셋에서 최고의 SSIM(0.89)와 PSNR(33.84) 점수를 기록했으며, 각각 LMD(랜드마크 거리)가 0.70과 0.76로, 뛰어난 정렬 및 품질을 나타낸다.
제거 실험 결과, MMCRNN 또는 DMA를 제거할 경우 성능 저하가 가장 크게 발생함(예: PSNR가 29.90 및 30.22로 감소), 이는 시간적 부드러움과 주목적 집중에 핵심적인 역할을 함을 확인한다.
생성된 랜드마크에까지 가우시안 노이즈(σ=0.1 이하)가 첨가된 상황에서도 높은 성능 유지하여, 랜드마크 예측 오차에 대한 강건성을 입증한다.
사용자 연구 결과, 특히 노이즈가 있는 VoxCeleb 샘플에서 음성과 가장 잘 동기화된 입술 움직임을 생성함을 확인했으며, 청소한 VoxCeleb 데이터에서는 배경 노이즈로 인해 Chung et al. [3]에 비해 다소 성능이 떨어짐.
훈련 데이터에 없던 얼굴(만화 캐릭터, 동물 캐릭터 포함)으로도 일반화가 잘 되어, 훈련 데이터에 없던 현실적이고 동기화된 얼굴 운동을 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.