[论文解读] Streaming Radiance Fields for 3D Video Synthesis
StreamRF 提出了一种在显式体素网格上针对动态场景的增量、逐帧微调方法,实现在线的 3D 视频合成,训练速度快、渲染质量具竞争力,同时通过基于差分的压缩降低存储需求。
We present an explicit-grid based method for efficiently reconstructing streaming radiance fields for novel view synthesis of real world dynamic scenes. Instead of training a single model that combines all the frames, we formulate the dynamic modeling problem with an incremental learning paradigm in which per-frame model difference is trained to complement the adaption of a base model on the current frame. By exploiting the simple yet effective tuning strategy with narrow bands, the proposed method realizes a feasible framework for handling video sequences on-the-fly with high training efficiency. The storage overhead induced by using explicit grid representations can be significantly reduced through the use of model difference based compression. We also introduce an efficient strategy to further accelerate model optimization for each frame. Experiments on challenging video sequences demonstrate that our approach is capable of achieving a training speed of 15 seconds per-frame with competitive rendering quality, which attains $1000 imes$ speedup over the state-of-the-art implicit methods. Code is available at https://github.com/AlgoHunt/StreamRF.
研究动机与目标
- 推动对动态场景的高效在线 3D 视频合成,而非离线、逐序列训练。
- 开发一个增量学习框架,通过逐帧模型差异来更新基础网格。
- 利用窄带微调来利用时序连续性并降低训练负载。
- 结合基于差分的压缩,在尽量保持质量的同时显著降低逐帧存储。
- 通过先导模型引导来提升训练效率,加速优化。
提出的方法
- 使用显式稀疏体素网格作为辐射场表示。
- 在第一帧上训练一个基础网格,然后学习并存储逐帧模型差异以更新后续帧 (V^i = V^{i-1} + δ_i)。
- 引入窄带微调策略,将更新聚焦于靠近表面的区域以捕捉变化,同时使大多数体素保持冻结。
- 通过掩模跟踪体素的新增、移除和修改来应用基于差分的压缩,从而大幅降低逐帧存储。
- 使用通过对前一帧网格下采样创建的先导模型来引导全尺寸优化并稳定训练。
- 可选:使用类似课程的训练流程,其中较小的先导模型指示在全网格中应修改的区域。
实验结果
研究问题
- RQ1在显式网格辐射场上实现逐帧的增量自适应,是否能够在实现在线(即时)训练的同时,达到对动态场景有竞争力的渲染质量?
- RQ2在不牺牲渲染保真度的前提下,通过基于差分的压缩可以节省多少存储?
- RQ3利用时序连续性的窄带微调是否能够提升流式辐射场的训练速度和稳定性?
- RQ4先导模型引导是否能够在逐帧更新中进一步加速优化并减少伪影?
主要发现
- 每帧的训练速度:在 1k 分辨率下,微调约 15 秒,渲染每帧约 120 ms。
- 相对于最先进的隐式动态方法实现显著加速(在 N3DV 的训练速度大约快 1000 倍)。
- 存储减少:基于差分的压缩将每帧存储降至大约几 MB(平均约 5.7 MB,自 ~1015 MB)。
- 窄带微调提升了收敛性和渲染稳定性,使在不过度更新体素的情况下也能可靠处理运动。
- 先导模型引导减少伪影(如闪烁和模糊)并提高保真度,相较于在没有引导的情况下训练完整网格。
- 在保持较低存储与更高训练效率的同时,达到与基线显式网格及若干隐式方法相竞争的渲染质量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。