[논문 리뷰] Landmark Guided 4D Facial Expression Generation
일련의 LM-4DGAN이 중립 랜드마크의 가이던스로 가변 길이 4D 얼굴 표정 시퀀스를 생성하고, 변位 디코더가 랜드마크 변위를 밀집 메시 모션으로 변환하여 신원 강건성과 시간적 일관성을 개선한다.
In this paper, we proposed a generative model that learns to synthesize the 4D facial expression with the neutral landmark. Existing works mainly focus on the generation of sequences guided by expression labels, speech, etc, while they are not robust to the change of different identities. Our LM-4DGAN utilizes neutral landmarks to guide the facial expression generation while adding an identity discriminator and a landmark autoencoder to the basic WGAN for achieving better identity robustness. Furthermore, we add a cross-attention mechanism to the existing displacement decoder which is suitable for the given identity.
연구 동기 및 목표
- 중립 랜드마크를 가이드로 사용하여 서로 다른 신원을 포용하는 강건한 4D 얼굴 표정 생성.
- 중립 랜드마크와 노이즈로부터 랜드마크 시퀀스를 생성하기 위한 거친-정교한 GAN 기반 프레임워크(LM-4DGAN)를 개발한다.
- 현실성과 신원 강건함을 높이기 위해 신원 판별기(ID)와 시간적 일관성 판별기를 도입한다.
- 랜드마크 변위를 밀집 메시 버텍스 변위로 매핑하는 교차 어텐션을 갖춘 변위 디코더를 도입한다.
- CoMA 데이터셋에서 평가하고 랜드마크 및 메시 재구성 정확도에 대해 Motion3D와 비교한다.
제안 방법
- 무작위 노이즈와 중립 랜드마크에서 시작하여 랜드마크 표정 시퀀스를 합성하는 거친-정교한 아키텍처(LM-4DGAN)를 구성한다.
- 희소한 3D 랜드마크 변형을 더 잘 모델링하기 위해 랜드마크 오토인코더를 삽입한다.
- 일치 손실을 포함한 신원 판별기(D_iden)와 시간적 일관성 판별기(D_coh)를 추가하여 신원 충실도와 시간적 일관성을 보장한다.
- 중립 랜드마크와의 교차 어텐션 메커니즘으로 강화된 랜드마크 변위를 밀집 메시 버텍스 변위로 변환하는 변위 디코더를 적용한다.
- CoMA 데이터셋에서 학습하고 랜드마크 및 메시에 대한 버텍스별 재구성 오차를 평가하며, Motion3D와 비교하고 L_coh, L_iden, AE, attention 제거 등의 아블레이션을 수행한다.
실험 결과
연구 질문
- RQ1중립 랜드마크가 서로 다른 신원에서 강건성을 달성하기 위해 4D 얼굴 표정 생성을 가이드할 수 있는가?
- RQ2신원 및 시간적 판별기를 추가하는 것이 생성 시퀀스의 현실감과 신원 충실도를 향상시키는가?
- RQ3교차 어텐션 기반 변위 디코더가 기본 디코더 대비 메시 재구성 정확도를 향상시키는가?
- RQ4제안된 LM-4DGAN 프레임워크가 기존 방법(Motion3D 등)과 비교하여 랜드마크 및 메시 재구성 오차에서 어떤 차이를 보이는가?
- RQ5모델이 중립 랜드마크에서 시작하여 가변 길이의 4D 표현을 생성할 수 있는가?
주요 결과
| 지표/구성요소 | Motion3D | 본 연구의 | w/o L_coh | w/o L_iden | w/o AE | w/o atten |
|---|---|---|---|---|---|---|
| 랜드마크 | 0.750 | 0.562 | 0.583 | 0.668 | 1.262 | - |
| 메시 | 5.288 | 4.324 | 4.643 | 4.724 | 5.257 | 4.414 |
- 제안된 방법은 CoMA 데이터셋에서 Motion3D에 비해 랜드마크 및 메시에 대한 버텍스별 재구성 오차가 더 낮다.
- 아블레이션에서 시간적 일관성 손실, 신원 손실, 오토인코더 또는 어텐션을 제거하면 성능이 저하되며, AE를 제거하면 랜드마크 오차가 0.562에서 1.262로 증가한다.
- 모든 구성요소를 갖춘 전체 LM-4DGAN이 아블레이션된 변형보다 더 나은 랜드마크 및 메시 결과를 보이며, 이는 오토인코더, 판별기, 교차 어텐션의 효과를 시사한다.
- 정성적 결과는 Motion3D보다 서로 다른 신원 간에 더 정확한 신원 일관 표현을 보여준다.
- 모델은 중립 랜드마크에 의해 가이드되며 LM-4DGAN 레벨을 연결해 가변 길이의 4D 표정을 생성하는 것을 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.