QUICK REVIEW

[论文解读] GAUDI: A Neural Architect for Immersive 3D Scene Generation

Miguel Ángel Bautista, Pengsheng Guo|arXiv (Cornell University)|Jul 27, 2022

Generative Adversarial Networks and Image Synthesis被引用 55

一句话总结

GAUDI 学习可分离的辐亮度场与相机位姿的潜在表达，用于可扩展的3D场景生成，达到最先进的无条件结果并能够从文本、图像或场景类别实现条件生成。

ABSTRACT

We introduce GAUDI, a generative model capable of capturing the distribution of complex and realistic 3D scenes that can be rendered immersively from a moving camera. We tackle this challenging problem with a scalable yet powerful approach, where we first optimize a latent representation that disentangles radiance fields and camera poses. This latent representation is then used to learn a generative model that enables both unconditional and conditional generation of 3D scenes. Our model generalizes previous works that focus on single objects by removing the assumption that the camera pose distribution can be shared across samples. We show that GAUDI obtains state-of-the-art performance in the unconditional generative setting across multiple datasets and allows for conditional generation of 3D scenes given conditioning variables like sparse image observations or text that describes the scene.

研究动机与目标

将室内场景的3D生成扩展到数千个、视角多样的场景。
将辐射场和相机位姿解耦为独立隐代码以实现可扩展优化。
学习潜在表征的先验以实现无条件生成。
通过图像、文本提示或环境标签等观测来实现有条件生成。
展示跨数据集的最先进性能并展示有条件生成能力。

提出的方法

通过无编码器去噪目标优化每条轨迹的潜在编码 z = [z_scene, z_pose]。
使用三部分解码器：一个姿态解码器 c SE(3) → 归一化时间 s 的姿态，一个场景解码器 d 输出三平面 W，以及一个辐射场 f 通过体积渲染渲染 RGB/深度。
使用三平面表示 W = [W_xy, W_xz, W_yz] 来建模辐射场，并在 f 上以双线性采样的平面特征为条件。
通过联合优化网络参数和潜在编码，并以重建损失 L_scene（RGB/深度）和位姿损失 L_pose（平移和四元数项）进行训练。
应用加性潜在扰动 beta * N(0, std(Z)) 以促使一个有收缩性的潜在空间，支持插值和鲁棒生成。
使用基于 DDPM 的先验学习 p(Z) 以实现无条件采样，并在配对条件 y 可用时实现条件采样。

实验结果

研究问题

RQ1GAUDI 是否能够通过解耦场景几何和相机运动的潜在编码来重构经验轨迹分布？
RQ2是否通过对潜在变量 Z 学习基于 DDPM 的先验在跨多数据集上实现高质量的无条件3D场景生成？
RQ3GAUDI 能否在给定文本描述、图像观测或环境标签时执行有条件的3D场景生成？
RQ4与现有方法相比，解耦辐射场和姿态对重建质量和生成指标有何影响？

主要发现

数据集	GRAF FID	GRAF SwAV-FID	pi-GAN FID	pi-GAN SwAV-FID	GSN FID	GSN SwAV-FID	GAUDI FID	GAUDI SwAV-FID
VizDoom	47.50±2.13	5.44±0.43	65.37±1.64	5.76±0.14	90.43±4.83	8.65±0.27	33.70±1.27	3.24±0.12
Replica	18-100-1k	1—	18.75	1.76	18.52	3.63	37.35	4.14

GAUDI 在 VizDoom、Replica、VLN-CE 和 ARKitScenes 上的无条件生成性能达到最先进水平，依据 FID 与 SwAV-FID 指标。
该模型学习辐射场与相机姿态的解耦隐编码，使对数千条轨迹的可扩展优化成为可能。
基于文本、图像观测和环境类别的有条件生成在 FID/SwAV-FID 上相对于无条件模型提供了有竞争力的提升。
重构轨迹显示出高保真度（PSNR、SSIM）和准确的姿态估计，并在场景之间实现有意义的潜在空间插值。
来自无条件 GAUDI 分布的样本在各数据集上呈现多样且逼真的3D场景。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。