Skip to main content
QUICK REVIEW

[论文解读] D$^2$NeRF: Self-Supervised Decoupling of Dynamic and Static Objects from a Monocular Video

Tianhao Wu, Fangcheng Zhong|arXiv (Cornell University)|May 31, 2022
Human Pose and Action Recognition被引用 41
一句话总结

D2NeRF 通过自监督辐射场和一个阴影场,将动态对象(及其阴影)与静态背景分离,从单目视频中学习解耦的三维场景。它在动态/静态解耦和新视图合成方面优于现有方法。

ABSTRACT

Given a monocular video, segmenting and decoupling dynamic objects while recovering the static environment is a widely studied problem in machine intelligence. Existing solutions usually approach this problem in the image domain, limiting their performance and understanding of the environment. We introduce Decoupled Dynamic Neural Radiance Field (D$^2$NeRF), a self-supervised approach that takes a monocular video and learns a 3D scene representation which decouples moving objects, including their shadows, from the static background. Our method represents the moving objects and the static background by two separate neural radiance fields with only one allowing for temporal changes. A naive implementation of this approach leads to the dynamic component taking over the static one as the representation of the former is inherently more general and prone to overfitting. To this end, we propose a novel loss to promote correct separation of phenomena. We further propose a shadow field network to detect and decouple dynamically moving shadows. We introduce a new dataset containing various dynamic objects and shadows and demonstrate that our method can achieve better performance than state-of-the-art approaches in decoupling dynamic and static 3D objects, occlusion and shadow removal, and image segmentation for moving objects.

研究动机与目标

  • 动机:从单目视频中恢复一个解耦的三维场景,将移动对象及其阴影与静态背景分离。
  • 开发一个自监督的神经表示,能够从新的视角分别渲染静态和动态分量。
  • 明确处理动态阴影,避免污染静态/背景辐射。
  • 引入阴影场来建模并消除随时间变化的阴影效应。
  • 提供数据集和评估,展示相较于最先进方法的改进解耦和背景重建。

提出的方法

  • 使用独立的神经辐射场表示静态和动态场景:静态为 F^S,动态为 F^D,并为动态分量提供每帧的时间潜在编码。
  • 使用体积渲染,通过沿相机射线积分两个场的贡献来合成颜色。
  • 引入一个偏斜熵损失,以促进沿射线的静态与动态密度的干净分离(解决动态分量的过拟合)。
  • 添加一个阴影场网络 ρ 用于建模影响静态辐射的阴影衰减,并包含阴影正则化项以防止过度解释黑暗。
  • 结合逐射线密度正则化 (L_r) 与射线-密度分布先验 (L_{σ^S}),在单目运动场景下稳定静态背景重建。
  • 在渲染过程中,通过在加入动态辐射贡献之前,将静态辐射乘以 (1 − ρ) 来考虑阴影。

实验结果

研究问题

  • RQ1一个自监督的三维表示是否能够从单个单目视频中解耦动态和静态场景分量?
  • RQ2如何对移动对象的阴影建模,以便静态背景重建保持准确?
  • RQ3需要哪些正则化项来防止动态 NeRF 吸收静态场景内容?
  • RQ4在去除动态遮挡物及其阴影的同时,是否可能实现静态背景的高质量新视图合成?
  • RQ5所提出的方法是否能推广到具有快速运动和移动阴影的真实世界单目视频?

主要发现

  • 在单目视频中解耦动态对象和阴影方面优于最先进的方法,在静态背景的新视图合成方面表现更好。
  • 在移除动态遮挡物及其阴影的同时,展示了对静态环境的3D重建的改进。
  • 偏斜熵损失对于实现静态/动态分离并减轻动态分量过拟合至关重要。
  • 阴影场使得移相关的大片阴影得以移除,而无需显式改变光照模型。
  • 包含动态对象和移动阴影的新数据集支持在合成和真实世界环境中的评估。
  • 定性结果显示静态背景更清晰,2D 图像中的动态对象分割更准确。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。