QUICK REVIEW

[논문 리뷰] EVA3D: Compositional 3D Human Generation from 2D Image Collections

Fangzhou Hong, Zhaoxi Chen|arXiv (Cornell University)|2022. 10. 10.

Human Pose and Action Recognition인용 수 35

한 줄 요약

EVA3D 는 2D 이미지 컬렉션으로부터 고해상도, 무조건적 3D 휴먼 생성기를 학습하기 위해 구성적 NeRF 표현과 포즈 가이드 학습을 사용하여 애니메이팅 가능한 3D 휴먼을 현실적인 기하학 및 텍스처와 함께 합성한다.

ABSTRACT

Inverse graphics aims to recover 3D models from 2D observations. Utilizing differentiable rendering, recent 3D-aware generative models have shown impressive results of rigid object generation using 2D images. However, it remains challenging to generate articulated objects, like human bodies, due to their complexity and diversity in poses and appearances. In this work, we propose, EVA3D, an unconditional 3D human generative model learned from 2D image collections only. EVA3D can sample 3D humans with detailed geometry and render high-quality images (up to 512x256) without bells and whistles (e.g. super resolution). At the core of EVA3D is a compositional human NeRF representation, which divides the human body into local parts. Each part is represented by an individual volume. This compositional representation enables 1) inherent human priors, 2) adaptive allocation of network parameters, 3) efficient training and rendering. Moreover, to accommodate for the characteristics of sparse 2D human image collections (e.g. imbalanced pose distribution), we propose a pose-guided sampling strategy for better GAN learning. Extensive experiments validate that EVA3D achieves state-of-the-art 3D human generation performance regarding both geometry and texture quality. Notably, EVA3D demonstrates great potential and scalability to "inverse-graphics" diverse human bodies with a clean framework.

연구 동기 및 목표

자세와 외형의 복잡성에도 불구하고 2D 이미지 컬렉션에서 고품질 3D 휴먼 생성을 필요로 한다는 동기를 제시한다.
관절이 있는 인간을 효율적으로 모델링하기 위해 조합형 NeRF 기반 표현을 제안한다.
2D 데이터셋에서 자세/시점 불균형을 다루기 위한 학습 전략을 개발한다.
초고해상도 렌더링에서 초해상도 모듈 없이도 최첨단 3D 휴먼 생성 품질을 입증한다.

제안 방법

인간 신체의 로컬 바운딩 박스를 각각 모델링하는 16개 부분별 서브네트워크를 갖춘 조합형 휴먼 NeRF를 도입한다.
정합 공간에서 로컬 서브네트워크를 질의하고 점이 여러 바운딩 박스에 걸칠 때 윈도우 블렌딩 방식으로 출력을 혼합한다.
바운딩 박스를 SMPL 기반의 순방향/역방향 LBS를 통해 대상 포즈로 변환하고, 로컬 부피에서 점을 샘플링한 뒤 NeRF 질의를 위한 정합 공간으로 다시 변환하여 광선 렌더링한다.
정합 공간과 관찰 공간 간의 텍스처/기하를 변환하고 템플릿 메시로부터 기하 오프셋(Delta SDF)을 예측하는 강력한 프리젠으로 SMPL을 사용한다.
절대 SDF가 아니라 SDF 오프셋 Delta d(x)을 예측하여 인간 편향을 활용하고, 유효한 기하 그래프를 보장하기 위해 Eikonal 손실을 적용한다.
정면 뷰 머리 각을 중심으로 하는 가우시안 분포의 자세-가이드 샘플링으로 2D 자세/시점 분포를 균형 있게 하여 기하 학습을 개선한다.
2D 이미지로부터 학습된 p_est에서 추출된 자세/형상 매개변수와 z로부터 렌더링하는 G와 실제 2D 컬렉션에 대해 판별하는 D로 구성된 GAN 프레임워크로 학습한다.
Delta SDF 학습을 안정시키기 위해 L_off(오프셋 크기)와 L_eik(오프셋의 매끄러움) 등의 정규화 항을 활용한다.
R1 정규화를 가진 비포화 GAN 손실과 Delta-SDF 손실을 보강하여 그럴듯한 인간 기하를 보존하도록 최적화한다.

실험 결과

연구 질문

RQ1조합형 NeRF 표현이 2D 이미지 컬렉션만으로 학습된 고해상도 3D 휴먼 생성을 가능하게 할 수 있는가?
RQ2SMPL 우선 정보와 자세-가이드 샘플링이 불균형한 2D 자세 분포에서 기하 및 텍스처 품질을 어떻게 향상시킬 수 있는가?
RQ3SMPL 기반 템플릿에서 SDF 오프셋을 예측하는 것이 3D 사실성과 포즈 제어 가능성에 어떤 영향을 미치는가?
RQ43D 데이터에 대한 감독 없이 EVA3D가 제어 가능한 포즈/형상 편집과 충실한 3D/2D 일관성을 어느 정도 달성할 수 있는가?

주요 결과

EVA3D는 초해상도 모듈 없이도 고해상도(512×256) 렌더링과 학습을 달성하여 여러 데이터셋에서 기준선을 능가한다.
조합형 NeRF 표현은 계산을 신체 부위에 국한시켜 효율성을 높이고 관절이 있는 인간의 3D 일관성을 향상시킨다.
Delta SDF와 SMPL 프라이어가 FID와 깊이 정확도를 크게 향상시켜 희소한 2D 자세에서 더 나은 기하 학습을 나타낸다.
자세 가이드 샘플링은 기하를 개선(깊이 오차 감소)하지만 RGB 품질과의 트레이드오프가 관찰되며, 전면 뷰를 중심으로 한 가우시안 분포가 균형 잡힌 결과를 제공한다.
EVA3D는 DeepFashion, SHHQ, UBCFashion, 및 AIST 데이터셋에서 최첨단 FID/KID 및 깊이 지표를 달성하고 제어 가능한 포즈/형상 생성 및 3D 일관성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.