Skip to main content
QUICK REVIEW

[논문 리뷰] MeshGAN: Non-linear 3D Morphable Models of Faces

Shiyang Cheng, Michael M. Bronstein|arXiv (Cornell University)|2019. 03. 25.
Generative Adversarial Networks and Image Synthesis참고 문헌 66인용 수 47
한 줄 요약

MeshGAN은 3D 얼굴 메시에서 직접 작동하는 고유 GAN을 도입하여 정체성과 표정을 비선형으로 모델링하며, 현실성 및 다양성 면에서 CoMA를 능가합니다.

ABSTRACT

Generative Adversarial Networks (GANs) are currently the method of choice for generating visual data. Certain GAN architectures and training methods have demonstrated exceptional performance in generating realistic synthetic images (in particular, of human faces). However, for 3D object, GANs still fall short of the success they have had with images. One of the reasons is due to the fact that so far GANs have been applied as 3D convolutional architectures to discrete volumetric representations of 3D objects. In this paper, we propose the first intrinsic GANs architecture operating directly on 3D meshes (named as MeshGAN). Both quantitative and qualitative results are provided to show that MeshGAN can be used to generate high-fidelity 3D face with rich identities and expressions.

연구 동기 및 목표

  • 보셀(voxel)이나 포인트 표현이 아닌 메시 토폴로지에서 direttamente 고충실도 3D 얼굴 메시를 생성하도록 동기를 제시한다.
  • 스펙트럴 메시 컨볼루션을 사용하여 정체성과 표정을 각각 모델링하는 고유 GAN 아키텍처(MeshGAN)를 개발한다.
  • 이전의 오토인코더 기반 방법들보다 MeshGAN이 더 높은 품질의 더 다양한 3D 얼굴을 생성한다는 것을 입증한다.
  • 일반화, 특이성, FID 지표를 포함한 대규모 3D 얼굴 데이터셋(3dMD, 4DFAB)에 대한 정량적 평가를 제공한다.

제안 방법

  • 3D 얼굴을 고정 토폴로지 메시로 표현하고 메시에서 라플라시안 기반 스펙트럴 컨볼루션을 적용한다.
  • 판별기가 메시 데이터에 대해 L1 손실로 작동하는 오토인코더인 BEGAN 스타일 GAN을 채택한다.
  • 정체성과 표정을 위한 비선형 3DMM 공간을 학습하기 위해 Chebyshev 다항식 기반 그래프 컨볼루션을 사용하여 Generator/Decoder를 구현한다.
  • 다중 해상도 메시 합성을 다루기 위해 4단계 메시 다운샘플링/업샘플링 체계와 중심삼각 중합 보간(Barycentric interpolation)을 사용한다.
  • 다양성을 촉진하기 위해 gamma=0.7를 사용한 BeGAN 밸런스 메커니즘으로 학습하고, 판별기 병목에서 64차원의 잠재 임베딩을 사용한다.
  • 5,036-정점 템플릿에 대한 밀도 대응을 위해 비강체 ICP로 데이터를 전처리하고, 랜드마크 가이드 정렬을 수행한다.

실험 결과

연구 질문

  • RQ13D 메시에서 직접 작동하는 고유 GAN이 제어 가능한 정체성과 표정을 갖춘 고충실도 얼굴을 생성할 수 있는가?
  • RQ2이전 메시 오토인코더 접근법에 비해 MeshGAN이 3D 얼굴의 일반화, 특이성 및 샘플 다양성을 더 잘 제공하는가?
  • RQ3MeshGAN에서 정체성 및 표정 잠재 공간은 보간(interpolation)과 외삽(extrapolation)에서 어떻게 작동하는가?
  • RQ4학습 선택(예: BEGAN 밸런스, Chebyshev 필터)이 생성된 메시의 품질과 다양성에 어떤 영향을 미치는가?

주요 결과

  • MeshGAN은 정체성과 표정 작업에서 경쟁력 있는 일반화를 달성하며, MeshGAN-ID는 0.465 mm 일반화를 보였고 CoMA-ID의 0.442 mm에 비해라고 표현할 수 있습니다.
  • MeshGAN은 CoMA보다 더 나은 특이성과 현저히 낮은 FID 점수를 보여 생성된 메시의 현실성과 다양성이 더 높음을 시사한다.
  • 정체성 모델의 경우 MeshGAN-ID는 10.82 FID를 달성했고 CoMA-ID의 14.24와 비교되며; 표정 모델의 경우 MeshGAN-EXP는 13.59 FID로 CoMA-EXP의 22.43과 비교된다.
  • 정성적 결과는 MeshGAN이 CoMA에 비해 더 풍부한 얼굴 세부 묘사와 더 그럴듯한 외삽을 보여주며 특히 민족성, 연령 및 근육 움직임에 대해 더 타당하다.
  • 외삽 실험에서 잠재 벡터를 학습 범위를 넘어 확장해도 MeshGAN은 의미 있는 표정을 유지하는 반면 CoMA는 왜곡된 결과를 초래한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.