Skip to main content
QUICK REVIEW

[논문 리뷰] AutoDecoding Latent 3D Diffusion Models

Evangelos Ntavelis, Aliaksandr Siarohin|arXiv (Cornell University)|2023. 07. 07.
Generative Adversarial Networks and Image Synthesis인용 수 9
한 줄 요약

이 논문은 2D 관찰로부터 시야 일관된 3D 콘텐츠를 생성하기 위해 잠재 공간에서 잠재 확산을 활용하는 3D 자동 디코더를 도입하며, 전체 3D 감독 없이도 강체 및 관절 객체를 처리합니다.

ABSTRACT

We present a novel approach to the generation of static and articulated 3D assets that has a 3D autodecoder at its core. The 3D autodecoder framework embeds properties learned from the target dataset in the latent space, which can then be decoded into a volumetric representation for rendering view-consistent appearance and geometry. We then identify the appropriate intermediate volumetric latent space, and introduce robust normalization and de-normalization operations to learn a 3D diffusion from 2D images or monocular videos of rigid or articulated objects. Our approach is flexible enough to use either existing camera supervision or no camera information at all -- instead efficiently learning it during training. Our evaluations demonstrate that our generation results outperform state-of-the-art alternatives on various benchmark datasets and metrics, including multi-view image datasets of synthetic objects, real in-the-wild videos of moving people, and a large-scale, real video dataset of static objects.

연구 동기 및 목표

  • 데이터셋 전체의 객체 속성을 잠재 공간에 임베딩하는 체적 자동 디코더를 학습하여 2D 감독으로부터 3D 렌더링을 가능하게 한다.
  • 중간 체적 잠재 공간을 견고하게 식별하고 정규화/비정규화를 통해 3D 확산 학습을 가능하게 한다.
  • 카메라 정보 여부에 관계없이 강체 및 비강체 객체를 지원하고 학습 중 카메라 요인을 학습한다.
  • 대규모 다범주 데이터셋 및 실제 영상 데이터에 확장 가능하도록 한다.
  • 합리적인 확산 비용으로 잠재 3D 공간에서 최첨단 성능을 합성 및 실험 데이터에서 입증한다.

제안 방법

  • 1D 객체 임베딩을 저해상도 잠재 3D 부피(V^Density, V^RGB)로 매핑하고 렌더링을 위한 보강된 부피를 점진적으로 확장하는 체적 자동 디코더 G를 학습한다.
  • 2D 이미지의 렌더링 감독과 피라미드 관찰 손실 및 전경 마스크를 사용하여 3D 감독 없이 기하학과 외관을 학습한다.
  • G를 G1(잠재 3D 특징 부피)와 G2(방사량 부피)로 분할하고, Stage 2에서 G를 고정하고 G1에서 생성된 잠재 공간에서 3D 확산 모델을 학습한다.
  • 확산 학습을 위한 긴 꼬리 잠재 특징 분포를 다루기 위해 특징 중앙값 및 정규화된 사분위 간격 기반의 견고한 정규화를 적용한다.
  • 고정 EDM 하이퍼파라미터가 있는 확산 샘플링을 채택하고, 텍스트 조건 생성용 분류자-프리 가이던스를 통합하며, 자동 디코더 공간에서 잠재 확산을 수행한다.
  • 학습된 체적 피부 등을 통한 강체 구성 요소로 분해하고 점진적으로 정제된 자세로 처리하여 비강체 객체를 다룬다.

실험 결과

연구 질문

  • RQ12D 관찰로부터 학습된 3D 자동 디코더가 확산 기반 3D 생성에 적합한 간결한 잠재 공간을 제공할 수 있는가?
  • RQ2명시적 3D 감독 없이 확산을 지원하기 위해 중간 체적 잠재 공간을 어떻게 정규화해야 하는가?
  • RQ3접근법이 강체 및 관절 객체를 모두 처리하고 외부 감독 없이 학습 중 카메라 매개변수를 학습할 수 있는가?
  • RQ4방법이 대규모 실제 세계 다범주 데이터셋 및 비디오 데이터로 확장되는가?
  • RQ5품질 좋은 3D 생성을 위한 확산 해상도, 샘플링 스텝 수 및 추론 시간 간의 트레이드오프는 무엇인가?

주요 결과

방법 | FID ↓ | KID ↓ | FID ↓ | KID ↓모델 변형 | PSNR ↑ | LPIPS ↓Direct Latent Sampling [63] | 69.21 | 73.74 | 97.51 | 69.22 | 72.76 | 53.68Ours - 16 Steps | 48.01 | 49.49 | 62.21 | 39.94 | 47.49 | 32.44Ours - 32 Steps | 49.74 | 46.2 | 51.26 | 28.45 | 43.68 | 31.7Ours - 64 Steps | 50.27 | 47.72 | 43.85 | 23.91 | 40.49 | 29.37
π-GAN [5]52.7113.6441.6713.81
EG3D [6]16.548.41231.1811.67
DiffRF [45]15.957.93527.0610.03
Ours11.284.71418.446.854
Table: PSNR/LPIPS ablation (Ours)27.7196.255--
- Multi-Frame Training27.1766.855--
- Self-Attention27.3356.738--
- Increased Depth27.246.924--
- Embedding Length (1024→64)25.9858.332--
CelebV-Text (Large)69.2173.7497.5169.2272.7653.68
MVImgNet (Large)------
Objaverse (Large)------
  • 이 방법은 합성 다중 뷰 데이터셋(PhotoShape Chairs, ABO Tables)에서 최첨단 성능보다 뛰어나며 FID/KID 지표가 향상된다(예: Our: Chair 및 ABO Tables에서 FID 11.28, KID 4.714, 18.44/6.854).
  • 대규모 데이터셋에서 8^3 잠재 해상도와 최대 64스텝의 잠재 확산은 샘플당 약 8초 정도의 강한 품질을 달성한다(16–64 스텝에서 다양한 이득이 관찰됨).
  • 임베딩 길이 증가와 다중 프레임 학습의 제거에 따라 상당한 이득이 나타나며, 셀프 어텐션은 데이터셋에 따라 혜택을 제공하고, 중간~고해상도 잠재 해상도에서의 확산이 최상의 결과를 낳는다.
  • 확산이 아닌 직접 잠재 샘플링은 특히 더 큰 규모에서 확산 기반 샘플링에 비해 성능이 떨어진다(예: Direct Latent Sampling: CelebV 69.21 FID vs Our 확산 16–64 스텝).
  • 텍스트 프롬프트를 이용한 조건부 생성(MVImgNet, Objaverse)은 합당한 기하학 및 깊이를 산출하지만 자막 정렬 이슈로 인해 일부 디테일이 누락될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.