[논문 리뷰] Video-Driven Animation of Neural Head Avatars
이 논문은 단일 인물 훈련 모델을 사용하여 인물에 관계없이 애니메이션을 구동할 수 있는 고품질 신경 3D 헤드 아바타를 위한 비디오 기반 애니메이션 방법을 제안한다. 단안 영상에서 인물에 관계없는 표정 특징을 추출하고, 학습된 잔차 특징을 활용한 LSTM 기반 애니메이션 네트워크를 적용함으로써, 임의의 연기자로부터도 현실적이고 잡음 없는 개인화된 헤드 모델의 애니메이션을 구현한다. 이는 최근의 방법들보다 시각적 품질과 자연스러움에서 뛰어난 성능을 발휘한다.
We present a new approach for video-driven animation of high-quality neural 3D head models, addressing the challenge of person-independent animation from video input. Typically, high-quality generative models are learned for specific individuals from multi-view video footage, resulting in person-specific latent representations that drive the generation process. In order to achieve person-independent animation from video input, we introduce an LSTM-based animation network capable of translating person-independent expression features into personalized animation parameters of person-specific 3D head models. Our approach combines the advantages of personalized head models (high quality and realism) with the convenience of video-driven animation employing multi-person facial performance capture.We demonstrate the effectiveness of our approach on synthesized animations with high quality based on different source videos as well as an ablation study.
연구 동기 및 목표
- 각 주제별 재학습 없이도 임의의 비디오 입력에서 고품질이고 현실적인 3D 헤드 아바타 애니메이션을 가능하게 하기 위해.
- 각 개인별로 특화된 신경 헤드 모델이 각 개인의 훈련 데이터가 필요로 하는 한계를 극복하기 위해.
- 고해상도 개인화 아바타와 다수 인물을 위한 유연한 비디오 기반 애니메이션 간 격차를 메우기 위해.
- 원본 표정 특징와 대상 애니메이션 파라미터 간의 모호한 매핑을 해소하여 애니메이션 품질과 강건성을 향상시키기 위해.
제안 방법
- Feng 등 [FFBB21]의 방법을 사용하여 단안 영상에서 주체에 관계없는 표정 특징을 추출한다.
- 입력 표정 특징에서 개인화된 애니메이션 파라미터를 예측하기 위해 시간적 맥락을 활용하는 LSTM 기반 애니메이션 네트워크를 적용한다.
- 입력 표정 특징에 학습된 잔차 벡터를 추가하여 원본과 대상 표정 공간 간의 매핑 정확도를 향상시킨다.
- 3D 메쉬 기하학, 동적 텍스처, 신경 렌더링을 조합한 하이브리드 신경 헤드 모델을 사용하여 사진 수준의 현실감 있는 결과를 도출한다.
- 단일 인물 데이터셋을 사용하여 애니메이션 네트워크를 훈련시고, 배포 시 임의의 연기자에 대해 추론할 수 있도록 한다.
- 일반화를 유지하고 인위적 특징에 대한 과적합을 방지하기 위해 추론 시에 0 잔차 특징 벡터를 적용한다.
실험 결과
연구 질문
- RQ1단일 인물 훈련 모델로 학습된 신경 헤드 아바타가 임의의 개인의 비디오 입력에서 효과적으로 애니메이션될 수 있는가?
- RQ2인물에 관계없는 표정 특징와 개인별 애니메이션 파라미터 간의 모호한 매핑을 어떻게 해소하여 애니메이션 품질을 향상시킬 수 있는가?
- RQ3LSTM을 통한 시간 모델링이 비디오 기반 얼굴 애니메이션의 현실감과 매끄러움에 어떤 영향을 미치는가?
- RQ4학습된 잔차 특징이 애니메이션 네트워크의 일반화와 강건성에 얼마나 기여하는가?
- RQ5최근의 최첨단 비디오 기반 얼굴 재현 기법들과 비교했을 때, 제안된 방법은 어떤 시각적 품질과 잡음 감소 성능을 보이는가?
주요 결과
- LSTM 기반 애니메이션 네트워크는 MLP 및 CNN 기반 베이스라인 대비 현실적이고 시간적으로 일관된 애니메이션 생성에서 뛰어난 성능을 보였다.
- 학습된 잔차 벡터로 ResNet50 기반 표정 특징을 보완함으로써 더 활기차고 자연스러운 애니메이션을 얻었고, 잡음도 감소시켰다.
- DAGAN, LIA, FADM와 비교해 더 낮은 렌더링 잡음과 더 선명한 얼굴 세부 정보를 제공하여 높은 시각적 품질을 달성했다.
- 8 프레임의 짧은 입력 시퀀스가 애니메이션 품질을 떨어뜨리지 않으면서 최적의 시간적 맥락을 제공함을 확인했다.
- 잔차 특징 보완이 네트워크가 입력 특징와 애니메이션 파라미터 간의 허구적 상관관계를 학습하는 것을 방지하는 데 기여했다.
- 제안된 방법은 훈련 대상 외의 어떤 연기자로부터의 비디오 입력을 사용하여도 개인화된 신경 헤드 아바타의 고품질 애니메이션을 가능하게 하여, 훈련 대상 외의 일반화 능력이 뛰어나다는 것을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.