Skip to main content
QUICK REVIEW

[论文解读] StyleSDF: High-Resolution 3D-Consistent Image and Geometry Generation

Roy Or-El, Xuan Luo|arXiv (Cornell University)|Dec 21, 2021
Advanced Vision and Imaging被引用 49
一句话总结

StyleSDF 将基于 SDF 的 3D 体积渲染器与 2D StyleGAN2 生成器结合,利用单视图 RGB 数据生成 1024x1024 的视图一致性图像和详细几何。它在不需要多视图监督的情况下实现高分辨率输出和改进的 3D 一致性。

ABSTRACT

We introduce a high resolution, 3D-consistent image and shape generation technique which we call StyleSDF. Our method is trained on single-view RGB data only, and stands on the shoulders of StyleGAN2 for image generation, while solving two main challenges in 3D-aware GANs: 1) high-resolution, view-consistent generation of the RGB images, and 2) detailed 3D shape. We achieve this by merging a SDF-based 3D representation with a style-based 2D generator. Our 3D implicit network renders low-resolution feature maps, from which the style-based network generates view-consistent, 1024x1024 images. Notably, our SDF-based 3D modeling defines detailed 3D surfaces, leading to consistent volume rendering. Our method shows higher quality results compared to state of the art in terms of visual and geometric quality.

研究动机与目标

  • 演示从单视图 RGB 数据生成高分辨率、3D 一致的图像和几何。
  • 利用基于 SDF 的体积渲染器提供显式 3D 几何和视图一致性特征。
  • 将低分辨率的 3D 特征与 2D StyleGAN2 生成器融合,以实现 1024x1024 的输出。

提出的方法

  • 使用基于坐标的 MLP 来建模 Signed Distance Fields (SDF) 与辐射度场,用于低分辨率特征图。
  • 通过体积渲染进行渲染,以获得 64x64 的特征图和 RGB 图像,由通过一个学习得到的 alpha 参数引导的 SDF 派生的密度控制。
  • 将低分辨率特征输入到截断的 StyleGAN2 生成器(64x64 初始阶段)以产生高分辨率的 1024x1024 图像。
  • 使用对抗损失和 Eikonal 损失训练以强制有效的 SDF 几何和视图一致性;包括一个姿态对齐损失以促进生成对象的全局对齐。

实验结果

研究问题

  • RQ1经过单视图训练的网络是否能在不同视点下产生 3D 一致且高分辨率的 RGB 图像?
  • RQ2将基于 SDF 的体积渲染器与 StyleGAN2 生成器耦合,是否比先前的 3D 感知 GAN 在几何和纹理质量上更优?
  • RQ3视点相关着色如何影响训练稳定性和推理时的视图一致性?
  • RQ4他们提出的采样策略对渲染质量和训练效率有什么影响?
  • RQ5StyleSDF 在 FFHQ 与 AFHQ 上在图像质量与深度/几何一致性方面的表现如何?

主要发现

数据集HoloGAN FIDHoloGAN KIDGRAF FIDGRAF KIDPiGAN FIDPiGAN KIDGIRAFFE FIDGIRAFFE KIDOurs FIDOurs KID
FFHQ90.975.579.255.083.085.831.220.111.52.65
AFHQ95.677.5129.585.152.430.733.515.112.84.47
  • 与最先进的 3D 感知 GAN 相比,StyleSDF 实现了 1024x1024 的视图一致性图像,并在深度与几何质量方面有所提升。
  • 在 FFHQ 与 AFHQ 上,StyleSDF 相对于基线模型(HoloGAN、GRAF、PiGAN、GIRAFFE)获得更优的 FID/KID 分数。
  • 站前视图与侧视图之间的深度一致性比 PiGAN 明显更好,显示出更强的视图一致几何。
  • 两阶段训练(先体积渲染器,再 StyleGAN2)稳定了优化并在各视图中保持了身份和结构。
  • 该方法通过对学习到的 SDF 表面进行 marching cubes 获得高质量的 3D 网格。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。