[论文解读] NeRF--: Neural Radiance Fields Without Known Camera Parameters
NeRF-- 在前向摄像机图像中同时优化相机参数和 NeRF 模型,实现无需 COLMAP 风格姿态监督的新视图合成,并引入 BLEFF 进行基准评测。
Considering the problem of novel view synthesis (NVS) from only a set of 2D images, we simplify the training process of Neural Radiance Field (NeRF) on forward-facing scenes by removing the requirement of known or pre-computed camera parameters, including both intrinsics and 6DoF poses. To this end, we propose NeRF$--$, with three contributions: First, we show that the camera parameters can be jointly optimised as learnable parameters with NeRF training, through a photometric reconstruction; Second, to benchmark the camera parameter estimation and the quality of novel view renderings, we introduce a new dataset of path-traced synthetic scenes, termed as Blender Forward-Facing Dataset (BLEFF); Third, we conduct extensive analyses to understand the training behaviours under various camera motions, and show that in most scenarios, the joint optimisation pipeline can recover accurate camera parameters and achieve comparable novel view synthesis quality as those trained with COLMAP pre-computed camera parameters. Our code and data are available at https://nerfmm.active.vision.
研究动机与目标
- 在没有相机内参和位姿时,推动新视图合成。
- 通过联合优化相机参数和 NeRF,消除预处理的 COLMAP 步骤。
- 展示端到端光度重建能够恢复准确的相机参数。
- 提供一个合成的 BLEFF 数据集,用于基准相机估计和 NVS 性能。
- 分析在各种相机运动下的鲁棒性,并与 COLMAP-NeRF 流水线进行比较。
提出的方法
- 将内参和 6DoF 位姿视为可学习参数,并通过光度重建损失与 NeRF 共同优化。
- 用焦距 f 表示内参并假设主点接近图像中心;用 Rodrigues 旋转(轴角)表示 SE(3) 位姿。
- 通过使用当前相机参数跟踪光线并查询沿光线的 NeRF MLP FTheta、并通过体积渲染整合辐射度来渲染像素。
- 使用端到端可微分的优化同时更新 NeRF 参数 Theta、相机位姿 Pi 和焦距 f。
- 以每张图像随机采样像素来计算重建损失,与 Ground-truth RGB 图像进行对比。
实验结果
研究问题
- RQ1相机内参和 6DoF 位姿在缺乏姿态监督的前向图像训练 NeRF 时,能否可靠地恢复?
- RQ2联合优化与两阶段 COLMAP-NeRF 在真实相机运动下的 NVS 质量和相机参数精度有何差异?
- RQ3在前向场景中,对旋转和平移扰动的鲁棒性如何?
- RQ4该方法是否能够在合成的 BLEFF 基准及接近真实世界的数据(RealEstate10K、LLFF)上,无需预计算相机参数就实现泛化?
主要发现
| 场景 | SSIM_colmap | SSIM_ours | LPIPS_colmap | LPIPS_ours | PSNR_colmap | PSNR_ours | Delta_rot(deg) | Delta_tran | Delta_focal(pixel) |
|---|---|---|---|---|---|---|---|---|---|
| Fern | 0.64 | 0.61 | 0.47 | 0.50 | 22.22 | 21.67 | 1.78 | 0.029 | 153.5 |
| Flower | 0.71 | 0.71 | 0.36 | 0.37 | 25.25 | 25.34 | 4.84 | 0.016 | 13.2 |
| Fortress | 0.73 | 0.63 | 0.38 | 0.49 | 27.60 | 26.20 | 1.36 | 0.025 | 144.1 |
| Horns | 0.68 | 0.61 | 0.44 | 0.50 | 24.25 | 22.53 | 5.55 | 0.044 | 156.2 |
| Leaves | 0.52 | 0.53 | 0.47 | 0.47 | 18.81 | 18.88 | 3.90 | 0.016 | 59.0 |
| Orchids | 0.51 | 0.39 | 0.46 | 0.55 | 19.09 | 16.73 | 4.96 | 0.051 | 199.3 |
| Room | 0.87 | 0.84 | 0.40 | 0.44 | 27.77 | 25.84 | 2.77 | 0.030 | 331.8 |
| Trex | 0.74 | 0.72 | 0.41 | 0.44 | 23.52 | 22.48 | 4.67 | 0.036 | 89.3 |
| Mean | 0.68 | 0.63 | 0.42 | 0.47 | 23.52 | 22.48 | 3.73 | 0.031 | 143.3 |
- NeRF-- 实现的新视图合成质量可与使用 COLMAP 相机参数的基线 NeRF 相媲美。
- 联合优化的相机参数在多种条件下趋近于 COLMAP 估计,带来相似的 NVS 性能。
- BLEFF 实验表明在旋转误差约为 5 度、焦距误差约为 25 像素的情况下,NVS 质量接近基于 COLMAP 的 NeRF。
- 在前向场景中,联合方法对平移扰动可能比 COLMAP 更鲁棒,但对较大旋转的鲁棒性可能较弱。
- 在面临跟踪-到-对象或退化运动时,COLMAP 可能失败而 NeRF-- 仍在许多情况下提供有意义的渲染,突出互补优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。