Skip to main content
QUICK REVIEW

[논문 리뷰] Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation

Mingwang Xu, Hui Li|arXiv (Cornell University)|2024. 06. 13.
Music and Audio Processing인용 수 5
한 줄 요약

이 논문은 Hallo라는 엔드-투-엔드 확산 기반 프레임워크를 제시합니다. 계층적 오디오 주도 시각 합성으로 립, 표정, 포즈 정렬을 위한 초상 애니메이션을 ReferenceNet과 시간적 정렬을 사용하여 높은 충실도와 다양한 모션을 구현합니다.

ABSTRACT

The field of portrait image animation, driven by speech audio input, has experienced significant advancements in the generation of realistic and dynamic portraits. This research delves into the complexities of synchronizing facial movements and creating visually appealing, temporally consistent animations within the framework of diffusion-based methodologies. Moving away from traditional paradigms that rely on parametric models for intermediate facial representations, our innovative approach embraces the end-to-end diffusion paradigm and introduces a hierarchical audio-driven visual synthesis module to enhance the precision of alignment between audio inputs and visual outputs, encompassing lip, expression, and pose motion. Our proposed network architecture seamlessly integrates diffusion-based generative models, a UNet-based denoiser, temporal alignment techniques, and a reference network. The proposed hierarchical audio-driven visual synthesis offers adaptive control over expression and pose diversity, enabling more effective personalization tailored to different identities. Through a comprehensive evaluation that incorporates both qualitative and quantitative analyses, our approach demonstrates obvious enhancements in image and video quality, lip synchronization precision, and motion diversity. Further visualization and access to the source code can be found at: https://fudan-generative-vision.github.io/hallo.

연구 동기 및 목표

  • 중간 얼굴 표현을 제거하고 엔드-투-엔드 확산을 이용한 고현실성의 초상 이미지 애니메이션을 구현한다.
  • 계층적 크로스-어텐션을 통해 입술, 표정, 머리 포즈 간의 오디오-시각 정합을 정밀하게 달성한다.
  • 개인화된 아이덴티티를 위해 표현과 포즈 다양성에 대한 적응적 제어를 가능하게 한다.
  • 연설 음성에 의해 구동되는 말하는 머리 동영상에서 시간적 일관성 및 시각적 충실도를 개선한다.

제안 방법

  • 엔드-투-엔드 프레임워크에서 UNet 기반 디오너를 갖춘 잠재 확산 모델을 사용한다.
  • 오디오와 립, 표정, 포즈 특성 간의 교차 주의를 통해 계층적 오디오 주도 시각 합성을 도입한다.
  • 얼굴 인코더로 아이덴티티를 인코딩하고 wav2vec로 오디오를 인코딩한 다음 계층적 교차 주의를 통해 융합한다.
  • 참조 네트워크(ReferenceNet)를 도입해 참조 이미지와 영상의 시간적 정합으로 생성 가이드를 제공한다.
  • 입술/표정/포즈에 대한 패치 기반 지역적 주의(Mask 기반)와 적응 융합으로 오디오에서 모션을 유도한다.
  • Encoder를 고정한 단일 프레임 생성으로 두 단계로 훈련한 후, 계층적 오디오-비주얼 교차 주의를 활용한 비디오 시퀀스 훈련을 수행한다.
Figure 1 : The proposed methodology aims to generate portrait image animations that are temporally consistent and visually high-fidelity. This is achieved by utilizing a reference image, an audio sequence, and optionally, the visual synthesis weight in conjunction with a diffusion model based on the
Figure 1 : The proposed methodology aims to generate portrait image animations that are temporally consistent and visually high-fidelity. This is achieved by utilizing a reference image, an audio sequence, and optionally, the visual synthesis weight in conjunction with a diffusion model based on the

실험 결과

연구 질문

  • RQ1오디오로 구동되는 확산 기반 말하는 얼굴 파이프라인에서 빠른 립 싱크, 현실적인 표정, 자연스러운 머리 움직임을 어떻게 달성할 수 있는가?
  • RQ2계층적 오디오-비주얼 교차 주의가 아이덴티티에 상관없이 오디오 입력과 시각적 립/눈/입 모션 간 정합을 개선할 수 있는가?
  • RQ3참조 가이드 및 시간적 정합이 생성된 인물 영상의 충실도와 일관성에 어떤 영향을 미치는가?

주요 결과

TableFID ↓FVD ↓Sync-C ↑Sync-D ↓E-FID ↓
SadTalker (HDtf)22.340203.8607.8857.5459.776
Audio2Head (HDtf)37.776239.8608.0247.14517.103
DreamTalk (HDtf)78.147790.6606.3768.36415.696
AniPortrait (HDtf)26.561234.6664.01510.54813.754
Ours20.545173.4977.7507.6597.951
SadTalker (CelebV)50.015471.1636.9227.92195.194
Audio2Head (CelebV)84.793457.4998.0247.145153.618
DreamTalk (CelebV)109.011988.5395.7098.743153.450
AniPortrait (CelebV)46.915477.1792.85311.70988.986
Ours (CelebV)44.578377.1177.1917.98478.495
SadTalker (Wild)24.212249.7866.6138.09937.324
Audio2Head (Wild)61.510383.1785.7198.58566.116
DreamTalk (Wild)128.423964.0885.9258.59658.180
AniPortrait (Wild)24.118250.7703.04310.99737.806
Ours (Wild)23.266239.6476.9247.96934.731
Full (Ablation)20.581193.0626.4998.6919.133
  • Hallo는 여러 데이터셋에서 여러 베이스라인에 비해 FID와 FVD가 더 낮고 립-싱크 지표가 경쟁력이 있거나 우수하다.
  • 이 방법은 강력한 립 싱크(Sync-C) 및 수용 가능한 Sync-D 점수를 보여주며 시간적 일관성(FVD)과 이미지 충실도(FID)에서 뚜렷한 개선을 보인다.
  • 절제 효과(Ablation)가 립, 표정, 포즈 교차 주의를 포함하면 전반적인 품질과 싱크가 개선되거나 유지되며, 전체 계층 구조가 최상의 결과를 낳는다.
  • 개인맞춤화를 아이덴티티별 정제로 지원하여 다양한 초상 스타일과 오디오 입력에서 높은 품질 출력을 유지한다.
Figure 2 : The overview of the proposed pipeline. Specifically, we integrates a reference image containing a portrait with corresponding audio input to drive portrait animation. Optional visual synthesis weights can be used to balance lip, expression, and pose weights. ReferenceNet encodes global vi
Figure 2 : The overview of the proposed pipeline. Specifically, we integrates a reference image containing a portrait with corresponding audio input to drive portrait animation. Optional visual synthesis weights can be used to balance lip, expression, and pose weights. ReferenceNet encodes global vi

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.