[论文解读] ReconFusion: 3D Reconstruction with Diffusion Priors
ReconFusion 使用为新视图合成训练的扩散先验来规范基于 NeRF 的重建,从而在仅需 3–9 个输入视图的情况下实现高质量的 3D 重建,并减少前向视角和 360 度场景中的伪影。
3D reconstruction methods such as Neural Radiance Fields (NeRFs) excel at rendering photorealistic novel views of complex scenes. However, recovering a high-quality NeRF typically requires tens to hundreds of input images, resulting in a time-consuming capture process. We present ReconFusion to reconstruct real-world scenes using only a few photos. Our approach leverages a diffusion prior for novel view synthesis, trained on synthetic and multiview datasets, which regularizes a NeRF-based 3D reconstruction pipeline at novel camera poses beyond those captured by the set of input images. Our method synthesizes realistic geometry and texture in underconstrained regions while preserving the appearance of observed regions. We perform an extensive evaluation across various real-world datasets, including forward-facing and 360-degree scenes, demonstrating significant performance improvements over previous few-view NeRF reconstruction approaches.
研究动机与目标
- 通过减少高质量 NeRF 重建所需的输入视图数量来推动实现 3D 捕捉的普及。
- 提出基于扩散先验的 NeRF 优化正则化项,以提升在新视点下的鲁棒性。
- 将多视图条件扩散模型与现有的 NeRF 流程集成,在约束不足的区域合成合理的几何和纹理。
- 在前向可视与无界的 360° 场景上评估泛化能力,并与最先进的少视图 NeRF 方法进行比较。
- 证明扩散先验可以作为现有捕获密度变化下的即插即用正则化项。
提出的方法
- 训练一个以带位姿的多视图输入为条件的潜在扩散模型,以合成合理的新的视图。
- 通过跨注意力将 PixelNeRF 生成的特征地图和基于 CLIP 的图像嵌入条件化扩散模型。
- 在真实与合成的多视图数据集上微调扩散模型,以获得新视图合成的一般先验。
- 通过类似蒸馏的采样损失将基于扩散的先验引入 Zip-NeRF 重建管线,指导三维优化朝向真实的新视图渲染。
- 使用渐进式采样策略,从中间扩散噪声水平生成目标图像,以形成基于样本的损失来正则化 NeRF 优化。
- 通过对一组观测图像和位姿进行条件化,使输入视图数量可变;条件化在给定新视图时使用最近的 3 个观测视点。
实验结果
研究问题
- RQ1是否可以从多视图数据学习到的扩散先验对 NeRF 重建进行正则化,以在少量视图下产生合理的几何和外观?
- RQ2将基于扩散的先验引入对前向可视和无界的 360° 场景的重建质量及伪影减少有何影响?
- RQ3扩散先验是否在不同捕获密度和数据集上都能作为鲁棒的即插即用正则化项?
主要发现
- ReconFusion 在 RealEstate10K、LLFF、DTU、CO3D 和 mip-NeRF 360 数据集上超越了最先进的少视图 NeRF 基线。
- 对于 RealEstate10K(3/6/9 视图):我们的实现达到 25.84/29.99/31.82 PSNR,SSIM 为 0.910/0.951/0.961,LPIPS 为 0.144/0.103/0.092。
- 对于 LLFF(3/6/9 视图):我们的实现达到 21.34/24.25/25.21 PSNR,SSIM 为 0.724/0.815/0.848,LPIPS 为 0.203/0.152/0.134。
- 对于 DTU(3/6/9 视图):我们的实现达到 20.74/23.62/24.62 PSNR,SSIM 为 0.875/0.904/0.921,LPIPS 为 0.124/0.105/0.094。
- 对于 CO3D(3/6/9 视图):我们的实现达到 19.59/21.84/22.95 PSNR,SSIM 为 0.662/0.714/0.736,LPIPS 为 0.398/0.342/0.318。
- 对于 mip-NeRF 360(3/6/9 视图):我们的实现达到 15.50/16.93/18.19 PSNR,SSIM 为 0.358/0.401/0.432,LPIPS 为 0.585/0.544/0.511。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。