Skip to main content
QUICK REVIEW

[论文解读] Fantasia3D: Disentangling Geometry and Appearance for High-quality Text-to-3D Content Creation

Rui Chen, Yongwei Chen|arXiv (Cornell University)|Mar 24, 2023
Human Motion and Animation被引用 14
一句话总结

Fantasia3D 将几何与外观在文本到3D生成中解耦,采用基于 DMTet 的混合几何表示和空间可变 BRDF 外观模型,从而实现高质量几何和真实感渲染。它利用渲染的法线贴图作为形状输入传递给一个预训练扩散模型,并学习 BRDF 参数以实现真实材料。

ABSTRACT

Automatic 3D content creation has achieved rapid progress recently due to the availability of pre-trained, large language models and image diffusion models, forming the emerging topic of text-to-3D content creation. Existing text-to-3D methods commonly use implicit scene representations, which couple the geometry and appearance via volume rendering and are suboptimal in terms of recovering finer geometries and achieving photorealistic rendering; consequently, they are less effective for generating high-quality 3D assets. In this work, we propose a new method of Fantasia3D for high-quality text-to-3D content creation. Key to Fantasia3D is the disentangled modeling and learning of geometry and appearance. For geometry learning, we rely on a hybrid scene representation, and propose to encode surface normal extracted from the representation as the input of the image diffusion model. For appearance modeling, we introduce the spatially varying bidirectional reflectance distribution function (BRDF) into the text-to-3D task, and learn the surface material for photorealistic rendering of the generated surface. Our disentangled framework is more compatible with popular graphics engines, supporting relighting, editing, and physical simulation of the generated 3D assets. We conduct thorough experiments that show the advantages of our method over existing ones under different text-to-3D task settings. Project page and source codes: https://fantasia3d.github.io/.

研究动机与目标

  • 以改进的表面质量和材料为目标,促进基于文本提示的自动3D资源创建。
  • 解耦几何与外观学习,以更好地恢复细致几何和真实纹理。
  • 利用混合表面对表示(DMTet)以实现显式表面变形和可微分渲染。
  • 引入空间可变 BRDF 模型,以学习真实的表面材料。
  • 确保与图形引擎兼容,以实现重新照明、编辑和物理仿真。

提出的方法

  • 使用 DMTet 作为混合几何表示,具可变形的四面体网格和可微分网格提取。
  • 渲染并编码表面法线贴图(以及对象掩码)作为形状输入,通过 SDS 损失输入到预训练图像扩散模型。
  • 引入由 MLP 学习的基于 BRDF 的外观模型,输出漫反射、粗糙度/金属度以及法线变化项,用于基于物理的渲染。
  • 通过使用预训练的 Stable Diffusion 模型,利用 Score Distillation Sampling (SDS) 训练几何和外观模型。
  • 从 3D 椭球体或用户提供的形状初始化几何,并通过分层级别的粗到细阶段进行几何和纹理优化的迭代细化。
  • 提供带有 UV 边缘填充的纹理映射管线,以减少接缝并提升渲染真实感。

实验结果

研究问题

  • RQ1与束缚或基于 NeRF 的方法相比,分离的几何-外观学习是否能提升文本到3D资产的质量?
  • RQ2引入空间可变 BRDF 是否能够实现真实感渲染并提升所生成表面的材料保真度?
  • RQ3以法线贴图为基础的形状编码输入扩散模型,是否能比基于颜色的编码实现更细致的几何重建?
  • RQ4该方法是否与标准图形引擎中的编辑、重新照明和物理仿真兼容?

主要发现

  • Fantasia3D 在零-shot 和用户引导设置下,在几何质量和外观真实度方面均优于现有方法。
  • 使用 DMTet 的分离几何-外观学习实现对表面的细致恢复和通过 BRDF 材料实现的真实渲染。
  • 将渲染的法线贴图用作扩散引导的形状输入,在几何质量上优于基于颜色的输入。
  • 基于 BRDF 的外观建模在光照和反射方面比仅漫反射的替代方案更真实。
  • 该方法支持在诸如 Blender 的标准图形引擎中进行重新照明、编辑和物理仿真。
  • 几何可以从用户提供的形状或椭球体初始化,便于灵活的用户引导生成。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。