Skip to main content
QUICK REVIEW

[论文解读] EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

Jiawei Yang, Boris Ivanovic|arXiv (Cornell University)|Nov 3, 2023
Advanced Vision and Imaging被引用 18
一句话总结

EmerNeRF 在自监督下学习4D静态/动态场景表示,涌现场景流,并将2D基础模型特征提升到4D时空维度,在 NOTR 上实现静态/动态场景重建、新视图合成和场景流估计的最先进结果,且无需真实分割或预训练的光流模型。

ABSTRACT

We present EmerNeRF, a simple yet powerful approach for learning spatial-temporal representations of dynamic driving scenes. Grounded in neural fields, EmerNeRF simultaneously captures scene geometry, appearance, motion, and semantics via self-bootstrapping. EmerNeRF hinges upon two core components: First, it stratifies scenes into static and dynamic fields. This decomposition emerges purely from self-supervision, enabling our model to learn from general, in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field from the dynamic field and uses this flow field to further aggregate multi-frame features, amplifying the rendering precision of dynamic objects. Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to represent highly-dynamic scenes self-sufficiently, without relying on ground truth object annotations or pre-trained models for dynamic object segmentation or optical flow estimation. Our method achieves state-of-the-art performance in sensor simulation, significantly outperforming previous methods when reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In addition, to bolster EmerNeRF's semantic generalization, we lift 2D visual foundation model features into 4D space-time and address a general positional bias in modern Transformers, significantly boosting 3D perception performance (e.g., 37.50% relative improvement in occupancy prediction accuracy on average). Finally, we construct a diverse and challenging 120-sequence dataset to benchmark neural fields under extreme and highly-dynamic settings.

研究动机与目标

  • 在不使用人工标注的情况下,将动态驾驶场景的静态与动态组成部分解耦。
  • 学习一个涌现的场景流,以聚合时间上错位的特征,提升对动态对象的表示。
  • 通过将2D基础模型特征提升到4D时空,同时缓解位置嵌入伪影,提升语义理解。
  • 在多样化的驾驶数据集上基准测试4D神经场重建,并确立NOTR作为一个平衡的道路场景基准。

提出的方法

  • 使用可学习的哈希网格将场景分解为静态场和动态场,静态为x,动态为(x, t)。
  • 从共享颜色头预测每点颜色,并分别预测天空和阴影分量。
  • 引入一个涌现的三维场景流场(v_f, v_b),纯粹通过重建损失学习,用于时间上聚合附近帧的特征。
  • 通过前向/后向流在时间上聚合动态特征,产生 g_d',以改进动态对象的渲染。
  • 将2D基础模型特征(如 DINOv1/v2)提升到4D时空,并引入一个可学习的PE移除模块以缓解Transformer的定位嵌入模式。
  • 使用密度正则化损失以仅在需要的地方鼓励动态密度,以及用于流场的循环一致性损失。
  • 优化目标结合 rgb、sky、shadow、depth 以及可选特征损失,还有考虑PE的特征重建。
Figure 1: EmerNeRF effectively reconstructs photo-realistic dynamic scenes (b), separating them into explicit static (c-d) and dynamic (e-f) elements, all via self-supervision. Notably, (g) scene flows emerge from EmerNeRF without any explicit flow supervision. Moreover, EmerNeRF can address detrime
Figure 1: EmerNeRF effectively reconstructs photo-realistic dynamic scenes (b), separating them into explicit static (c-d) and dynamic (e-f) elements, all via self-supervision. Notably, (g) scene flows emerge from EmerNeRF without any explicit flow supervision. Moreover, EmerNeRF can address detrime

实验结果

研究问题

  • RQ1一个自监督框架是否能够在没有真实标注的情况下将4D驾驶场景分解为静态和动态组件?
  • RQ2涌现的场景流是否能在基于 NeRF 的表示中有效聚合多帧特征以表示动态对象?
  • RQ3提升到4D时空的2D基础模型特征是否改善语义感知任务,且能否缓解变换器中的PE模式以获得更好的3D一致性?
  • RQ4与现有的基于 NeRF 的方法相比,EmerNeRF 在静态/动态重建、新视图合成和场景流估计方面的表现如何?

主要发现

  • EmerNeRF 在 NOTR 上实现了最先进的重建和新视图合成,静态场景比前序基于 NeRF 的方法在 PSNR 上提升了 +2.93,动态场景提升了 +3.70,动态视图 PSNR 提升了 +2.91。
  • 场景流估计显著优于 NSFP,EPE3D 从 0.365 m 降至 0.014 m,且 Acc_5/Acc_10 提高。
  • 从 ViT 模型提升无PE的4D特征带来巨大的语义-占用提升;移除 PE 模式在3D感知任务中实现高达63.22%的相对微观精确度提升和37.50%的平均提升。
  • PE分解使特征合成质量显著提升,尤其是 DINOv2,在静态/动态/多样化划分上有显著的 PSNR/占用改善。
  • NOTR 提供一个平衡且多样化的基准测试(120 个序列),在日落/黎明、雨天、夜间等挑战条件下评估静态/动态 NeRF。
  • 涌现的流来自由重建损失驱动的时间特征聚合,而无需对光流进行显式监督。
Figure 2: EmerNeRF Overview. (a) EmerNeRF consists of a static, dynamic, and flow field ( $\mathcal{S},\mathcal{D},\mathcal{V}$ ). These fields take as input either a spatial query $\mathbf{x}$ or spatial-temporal query $(\mathbf{x},t)$ to generate a static (feature $\mathbf{g}_{s}$ , density $\sigm
Figure 2: EmerNeRF Overview. (a) EmerNeRF consists of a static, dynamic, and flow field ( $\mathcal{S},\mathcal{D},\mathcal{V}$ ). These fields take as input either a spatial query $\mathbf{x}$ or spatial-temporal query $(\mathbf{x},t)$ to generate a static (feature $\mathbf{g}_{s}$ , density $\sigm

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。