QUICK REVIEW

[论文解读] Neural Trajectory Fields for Dynamic Novel View Synthesis

Chaoyang Wang, B. Eckart|arXiv (Cornell University)|May 12, 2021

Advanced Vision and Imaging参考文献 49被引用 25

一句话总结

本文提出 DCT-NeRF，一种基于轨迹的神经表示，利用 DCT 系数对密集时空轨迹进行建模，以实现从单目序列出发的稳定、光度一致的动态新视图合成。

ABSTRACT

Recent approaches to render photorealistic views from a limited set of photographs have pushed the boundaries of our interactions with pictures of static scenes. The ability to recreate moments, that is, time-varying sequences, is perhaps an even more interesting scenario, but it remains largely unsolved. We introduce DCT-NeRF, a coordinatebased neural representation for dynamic scenes. DCTNeRF learns smooth and stable trajectories over the input sequence for each point in space. This allows us to enforce consistency between any two frames in the sequence, which results in high quality reconstruction, particularly in dynamic regions.

研究动机与目标

从有限的照片集动机出发实现动态新视图合成。
开发一种坐标基础的神经表示，能够捕捉长程时空运动。
通过学习到的轨迹，在任意时间对之间强制光度一致性。
处理遮挡与时间变化，而无需大量逐帧掩模。
提供一种在一些当代动态 NVS 方法之上表现更优的方法，尤其在动态区域。

提出的方法

将场景表示为一个神经场，输出 DCT 轨迹系数、每点颜色对时间的条件，以及透明度： (φ_p^t, ω_p^t, σ_p^t) = Ψ(p, t)。
将每点的轨迹定义为基于 DCT 的函数 T_p^t(·) = f_DCT^{-1}(·, φ_p^t)，以获得密集的时空运动。
将颜色建模为 c_p^t(t′, d) = f_color(t′, d, ω_p^t)，并允许颜色随时间变化以捕捉镜面反射和光照变化。
通过光场体积渲染沿射线进行渲染，利用来自任意帧通过 T_p^t 的辐射度进行变形，以在时间上强制一致性。
通过循环一致性、单可见表面（SVS）约束，以及轨迹正则化项（空间/时间平滑，尽可能保持刚性变形）来正则化轨迹。
以邻近帧和时间上较远的对之间的光度损失进行训练，结合局部到全局的时间采样计划。

实验结果

研究问题

RQ1密集参数化的时空轨迹场是否能够在仅有单目序列的动态场景中实现一致的动态新视图合成？
RQ2将运动嵌入到每个场景点的 DCT 基轨迹，是否相对于基于逐帧扭曲的方法提高了长程时序的一致性和渲染质量？
RQ3遮挡与光照变化如何影响动态 NVS，是否可以通过学习到的透明度/出现模型来缓解这些伪影？
RQ4各种正则化项（循环、一致性 SVS、轨迹、深度/光流先验）对渲染质量与稳定性的影响？
RQ5与现有动态 NVS 方法在标准动态场景数据集上的表现如何？

主要发现

方法	整场景（SSIM↑）	整场景（LPIPS↓）	仅动态部分（SSIM↑）	仅动态部分（LPIPS↓）
3D 照片 [36]	0.614	0.215	0.486	0.217
Luo 等 [21]	0.746	0.141	0.530	0.207
NR-NeRF [43]	0.526	0.307	0.40	0.400
NSFF [18]	0.928	0.045	0.758	0.097
我们的方法无静态背景	0.885	0.077	0.701	0.092
- 局部仅	0.878	0.087	0.689	0.103
- 无循环损失 L_cycle	0.881	0.082	0.718	0.103
- 无 SVS 损失 L_svs	0.885	0.082	0.711	0.096
- 无轨迹损失 L_traj	0.879	0.085	0.701	0.101
- 无深度损失 L_depth	0.892	0.081	0.697	0.108
我们的方法（含静态背景）	0.915	0.049	0.704	0.089

DCT-NeRF 在动态区域实现高质量渲染，并通过对每个场景点建模长程轨迹来保持跨帧的一致性。
DCT 轨迹表示使得能够在任意时间对之间进行采样和匹配，从而在邻近帧之外强制光度一致性。
该方法在多项基线方法上实现了定量与定性提升（在某些指标上与 Li 等 2020 相当），并对动态区域的时序遮挡有更好的处理。
通过一个概率遮挡项 p_occ，降低在随时间可能被遮挡的区域的贡献，从而减轻时间性遮挡。
消融实验显示静态背景建模、遮挡权重和多种正则化对保持时空一致性尤为重要，尤其是在动态区域。
相较于近同类研究（Li 等 2020；TrestchK 等 2020；NR-NeRF；NSFF），所提出的方法在动态区域具有更清晰的细节与更好的长程运动一致性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。