[论文解读] ShaRF: Shape-conditioned Radiance Fields from a Single View
本文提出 ShaRF,一种两阶段、形状与外观解耦的神经渲染框架,使用体素化形状支架来条件化辐射场,使单图像对象重建和新视角合成在面对真实渲染和真实照片时具有泛化能力。
We present a method for estimating neural scenes representations of objects given only a single image. The core of our method is the estimation of a geometric scaffold for the object and its use as a guide for the reconstruction of the underlying radiance field. Our formulation is based on a generative process that first maps a latent code to a voxelized shape, and then renders it to an image, with the object appearance being controlled by a second latent code. During inference, we optimize both the latent codes and the networks to fit a test image of a new object. The explicit disentanglement of shape and appearance allows our model to be fine-tuned given a single image. We can then render new views in a geometrically consistent manner and they represent faithfully the input object. Additionally, our method is able to generalize to images outside of the training domain (more realistic renderings and even real photographs). Finally, the inferred geometric scaffold is itself an accurate estimate of the object's 3D shape. We demonstrate in several experiments the effectiveness of our approach in both synthetic and real images.
研究动机与目标
- 通过构建几何体素支架来引导辐射场重建,从单幅图像估计对象的神经场景表示。
- 解耦形状与外观,以实现鲁棒的微调和跨域更好的泛化。
- 在最小输入下渲染几何一致的新视图并恢复准确的3D形状。
- 证明在更真实的渲染和真实照片上对训练域以外的泛化能力。
- 提供一种基于优化的推断过程,在测试图像上联合细化潜在码与网络。
提出的方法
- 一个形状网络 G 将潜在码映射到表示对象占据的3D体素网格 V。
- 一个外观网络 F 基于 V 条件估计辐射场,通过占据 αp 和外观潜在码 φ,给出任意3D点 p 和观察方向 d 的颜色 c 与密度 σ。
- 辐射场渲染遵循如 NeRF 中的体积渲染,进行光线投射与累积以合成像素。
- 训练使用 ShapeNet 对象,潜在码为 θ(形状)和 φ(外观),并且有损失:带有占据的体素 BCE、对称性损失,以及从两个视图得到的对象轮廓投影损失。
- 推断阶段在两步过程中优化 θ、G、φ(F 固定)并在第二步在 θ 和 G 固定的情况下优化 φ 与 F,以匹配测试图像,从而实现对真实图像的微调。
实验结果
研究问题
- RQ1一个从单视图学习的潜在、以形状为条件的辐射场是否能够对从未见过的对象渲染出准确的新视角?
- RQ2几何与外观的解耦是否提升对真实渲染和真实照片的泛化能力?
- RQ3在单个测试图像上联合推断并微调形状与外观网络,与仅优化潜在码相比表现如何?
- RQ4体素化几何支架能否引导表面聚焦的外观合成以提升渲染保真度?
- RQ5ShaRF 的变体在合成数据集与真实数据集上对比现有基于单图像的 NeRF 方法的性能如何?
主要发现
| Variant | PSNR (code-only) | SSIM (code-only) | PSNR (code+network) | SSIM (code+network) |
|---|---|---|---|---|
| V1. Conditional NeRF | 22.12 | 0.90 | 22.05 | 0.91 |
| V2. ShapeFromNR | 23.37 | 0.92 | 23.31 | 0.92 |
| V3. ShapeFromMask | 22.94 | 0.91 | 22.98 | 0.91 |
| V4. ShapeFromGT | 25.59 | 0.94 | 25.65 | 0.94 |
- 带有形状支架的 ShaRF 变体在 ShapeNet-SRN 椅子和汽车上优于仅代码的基线,在 PSNR/SSIM 上的表现为 V2:PSNR 23.31–23.37,SSIM 0.92(椅子)。
- 在 ShapeNet-Realistic 上,形状支架变体(V3、V4)优于仅代码的变体,V4 达到 PSNR 25.65、SSIM 0.94。
- 在 Pix3D 上,ShapeFromMask(来自分割的形状支架)结合代码+网络优化,呈现出较强的渲染质量,并在与 pixelNeRF 的比较中表现出竞争力。
- ShapeFromNR 与 ShapeFromMask 变体显示出比仅 Conditional NeRF 更好的对更真实渲染和真实图像的泛化能力。
- 两步推断过程(先细化形状及其网络,再细化外观与渲染器)显著提高重建质量,特别是对非训练域输入。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。