Skip to main content
QUICK REVIEW

[논문 리뷰] MetaAvatar: Learning Animatable Clothed Human Models from Few Depth Images

Shaofei Wang, Marko Mihajlović|arXiv (Cornell University)|2021. 06. 22.
3D Shape Modeling and Analysis참고 문헌 71인용 수 48
한 줄 요약

MetaAvatar는 소수의 단안(depth) 이미지로 의상 인체의 동적 신경 SDF를 예측하는 메타학습된 하이퍼네트워크를 학습하여 포즈 의존적인 의상 변형이 있는 빠르고 제어 가능한 아바타를 가능하게 한다.

ABSTRACT

In this paper, we aim to create generalizable and controllable neural signed distance fields (SDFs) that represent clothed humans from monocular depth observations. Recent advances in deep learning, especially neural implicit representations, have enabled human shape reconstruction and controllable avatar generation from different sensor inputs. However, to generate realistic cloth deformations from novel input poses, watertight meshes or dense full-body scans are usually needed as inputs. Furthermore, due to the difficulty of effectively modeling pose-dependent cloth deformations for diverse body shapes and cloth types, existing approaches resort to per-subject/cloth-type optimization from scratch, which is computationally expensive. In contrast, we propose an approach that can quickly generate realistic clothed human avatars, represented as controllable neural SDFs, given only monocular depth images. We achieve this by using meta-learning to learn an initialization of a hypernetwork that predicts the parameters of neural SDFs. The hypernetwork is conditioned on human poses and represents a clothed neural avatar that deforms non-rigidly according to the input poses. Meanwhile, it is meta-learned to effectively incorporate priors of diverse body shapes and cloth types and thus can be much faster to fine-tune, compared to models trained from scratch. We qualitatively and quantitatively show that our approach outperforms state-of-the-art approaches that require complete meshes as inputs while our approach requires only depth frames as inputs and runs orders of magnitudes faster. Furthermore, we demonstrate that our meta-learned hypernetwork is very robust, being the first to generate avatars with realistic dynamic cloth deformations given as few as 8 monocular depth frames.

연구 동기 및 목표

  • 일반화 가능한 의상 인간 모델링을 통해 포즈 의존적 의상 변형을 지원한다.
  • 몸 자세에 조건화된 동적 신경 SDF를 출력하는 하이퍼네트워크를 초기화하는 메타학습 프레임워크를 개발한다.
  • 단안(depth) 이미지로부터 빠르게 미세 조정하여 주제별 애니메이터 가능한 아바타를 생성한다.
  • 매우 한정된 데이터에서 메시 입력 기반 베이스라인과 비교하고 강건성을 입증한다.

제안 방법

  • 메타학습된 하이퍼네트워크 g_ψ를 사용하여 정준 공간의 의상 인간에 대한 신경 SDF 매개변수를 예측한다.
  • 적은 샷 메타학습(IGR 손실)을 통해 정적 신경 SDF f_φ를 메타학습하여 다양한 체형과 의복에 대한 priors를 포착한다.
  • 뼈대 변환 {B_b}에 조건화될 때 정적 메타-SDF 매개변수에 잔차를 예측하도록 하이퍼네트워크를 학습한다.
  • 입력 깊이 포인트를 역스킨닝 네트워크로 표준화한 다음 순방향 스킨닝 네트워크를 통해 애니메이션한다.
  • 테스트 시점에 깊이 프레임과 SMPL 피팅의 소량 미세 조정 세트로 하이퍼네트워크를 최적화한다.
  • g_ψ를 위한 계층적 MLP 인코더로 뼈대 변환을 인코딩한다.

실험 결과

연구 질문

  • RQ1 깊이 이미지로부터 빠르고 소수 샷으로 애니메이트 가능한 의상 인간 아바타를 메타학습된 사전으로 빠르게 생성할 수 있는가?
  • RQ2 입력 데이터가 제한된 상태에서 하이퍼네트워크 기반 동적 SDF 모델이 피험자, 의복 유형, 포즈 전반에 대해 얼마나 잘 일반화하는가?
  • RQ3 포즈 의존 의상 변형을 위한 정적 SDF 사전의 메타학습과 동적 하이퍼네트워크의 메타학습 중 어떤 이점이 있는가?
  • RQ4 깊이 프레임만 사용할 때 메타아바타가 메시 기반이나 전체 입력 대역 대비 어떤 성능을 보이는가?

주요 결과

  • MetaAvatar는 약 8 프레임의 깊이 프레임만으로도 대략 2분의 미세 조정으로 제어 가능한 동적 신경 SDF 아바타를 생성한다.
  • 이 방법은 완전한 메시가 필요한 베이스라인(NASA, SCANimate)보다 우수하고 심지어 LEAP에 근접한 성능을 보이며 깊이만 입력 시 의상 디테일이 더 우수하다.
  • 정적 메타-SDF 초기화 후 하이퍼네트워크 잔차를 이용한 두 단계 메타학습 전략이 학습을 안정화하고 빠른 적응을 가능하게 한다.
  • CAPE 실험에서 학습된 변형 사전은 보지 못한 피험자, 포즈, 그리고 최소 하나의 보지 못한 의상 유형에도 강인하다.
  • 미세 조정 데이터를 감소시켜 (<1% 이하)도 메타아바타는 지각적 품질을 유지하고 보간/외삽 성능도 합리적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.