QUICK REVIEW

[논문 리뷰] AutoDecoding Latent 3D Diffusion Models

Evangelos Ntavelis, Aliaksandr Siarohin|arXiv (Cornell University)|2023. 07. 07.

Generative Adversarial Networks and Image Synthesis인용 수 9

한 줄 요약

이 논문은 2D 관찰로부터 시야 일관된 3D 콘텐츠를 생성하기 위해 잠재 공간에서 잠재 확산을 활용하는 3D 자동 디코더를 도입하며, 전체 3D 감독 없이도 강체 및 관절 객체를 처리합니다.

ABSTRACT

We present a novel approach to the generation of static and articulated 3D assets that has a 3D autodecoder at its core. The 3D autodecoder framework embeds properties learned from the target dataset in the latent space, which can then be decoded into a volumetric representation for rendering view-consistent appearance and geometry. We then identify the appropriate intermediate volumetric latent space, and introduce robust normalization and de-normalization operations to learn a 3D diffusion from 2D images or monocular videos of rigid or articulated objects. Our approach is flexible enough to use either existing camera supervision or no camera information at all -- instead efficiently learning it during training. Our evaluations demonstrate that our generation results outperform state-of-the-art alternatives on various benchmark datasets and metrics, including multi-view image datasets of synthetic objects, real in-the-wild videos of moving people, and a large-scale, real video dataset of static objects.

연구 동기 및 목표

데이터셋 전체의 객체 속성을 잠재 공간에 임베딩하는 체적 자동 디코더를 학습하여 2D 감독으로부터 3D 렌더링을 가능하게 한다.
중간 체적 잠재 공간을 견고하게 식별하고 정규화/비정규화를 통해 3D 확산 학습을 가능하게 한다.
카메라 정보 여부에 관계없이 강체 및 비강체 객체를 지원하고 학습 중 카메라 요인을 학습한다.
대규모 다범주 데이터셋 및 실제 영상 데이터에 확장 가능하도록 한다.
합리적인 확산 비용으로 잠재 3D 공간에서 최첨단 성능을 합성 및 실험 데이터에서 입증한다.

제안 방법

1D 객체 임베딩을 저해상도 잠재 3D 부피(V^Density, V^RGB)로 매핑하고 렌더링을 위한 보강된 부피를 점진적으로 확장하는 체적 자동 디코더 G를 학습한다.
2D 이미지의 렌더링 감독과 피라미드 관찰 손실 및 전경 마스크를 사용하여 3D 감독 없이 기하학과 외관을 학습한다.
G를 G1(잠재 3D 특징 부피)와 G2(방사량 부피)로 분할하고, Stage 2에서 G를 고정하고 G1에서 생성된 잠재 공간에서 3D 확산 모델을 학습한다.
확산 학습을 위한 긴 꼬리 잠재 특징 분포를 다루기 위해 특징 중앙값 및 정규화된 사분위 간격 기반의 견고한 정규화를 적용한다.
고정 EDM 하이퍼파라미터가 있는 확산 샘플링을 채택하고, 텍스트 조건 생성용 분류자-프리 가이던스를 통합하며, 자동 디코더 공간에서 잠재 확산을 수행한다.
학습된 체적 피부 등을 통한 강체 구성 요소로 분해하고 점진적으로 정제된 자세로 처리하여 비강체 객체를 다룬다.

실험 결과

연구 질문

RQ12D 관찰로부터 학습된 3D 자동 디코더가 확산 기반 3D 생성에 적합한 간결한 잠재 공간을 제공할 수 있는가?
RQ2명시적 3D 감독 없이 확산을 지원하기 위해 중간 체적 잠재 공간을 어떻게 정규화해야 하는가?
RQ3접근법이 강체 및 관절 객체를 모두 처리하고 외부 감독 없이 학습 중 카메라 매개변수를 학습할 수 있는가?
RQ4방법이 대규모 실제 세계 다범주 데이터셋 및 비디오 데이터로 확장되는가?
RQ5품질 좋은 3D 생성을 위한 확산 해상도, 샘플링 스텝 수 및 추론 시간 간의 트레이드오프는 무엇인가?

주요 결과

방법 \| FID ↓ \| KID ↓ \| FID ↓ \| KID ↓	모델 변형 \| PSNR ↑ \| LPIPS ↓	Direct Latent Sampling [63] \| 69.21 \| 73.74 \| 97.51 \| 69.22 \| 72.76 \| 53.68	Ours - 16 Steps \| 48.01 \| 49.49 \| 62.21 \| 39.94 \| 47.49 \| 32.44	Ours - 32 Steps \| 49.74 \| 46.2 \| 51.26 \| 28.45 \| 43.68 \| 31.7	Ours - 64 Steps \| 50.27 \| 47.72 \| 43.85 \| 23.91 \| 40.49 \| 29.37
π-GAN [5]	52.71	13.64	41.67	13.81
EG3D [6]	16.54	8.412	31.18	11.67
DiffRF [45]	15.95	7.935	27.06	10.03
Ours	11.28	4.714	18.44	6.854
Table: PSNR/LPIPS ablation (Ours)	27.719	6.255	-	-
- Multi-Frame Training	27.176	6.855	-	-
- Self-Attention	27.335	6.738	-	-
- Increased Depth	27.24	6.924	-	-
- Embedding Length (1024→64)	25.985	8.332	-	-
CelebV-Text (Large)	69.21	73.74	97.51	69.22	72.76	53.68
MVImgNet (Large)	-	-	-	-	-	-
Objaverse (Large)	-	-	-	-	-	-

이 방법은 합성 다중 뷰 데이터셋(PhotoShape Chairs, ABO Tables)에서 최첨단 성능보다 뛰어나며 FID/KID 지표가 향상된다(예: Our: Chair 및 ABO Tables에서 FID 11.28, KID 4.714, 18.44/6.854).
대규모 데이터셋에서 8^3 잠재 해상도와 최대 64스텝의 잠재 확산은 샘플당 약 8초 정도의 강한 품질을 달성한다(16–64 스텝에서 다양한 이득이 관찰됨).
임베딩 길이 증가와 다중 프레임 학습의 제거에 따라 상당한 이득이 나타나며, 셀프 어텐션은 데이터셋에 따라 혜택을 제공하고, 중간~고해상도 잠재 해상도에서의 확산이 최상의 결과를 낳는다.
확산이 아닌 직접 잠재 샘플링은 특히 더 큰 규모에서 확산 기반 샘플링에 비해 성능이 떨어진다(예: Direct Latent Sampling: CelebV 69.21 FID vs Our 확산 16–64 스텝).
텍스트 프롬프트를 이용한 조건부 생성(MVImgNet, Objaverse)은 합당한 기하학 및 깊이를 산출하지만 자막 정렬 이슈로 인해 일부 디테일이 누락될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.