Skip to main content
QUICK REVIEW

[论文解读] SDF-SRN: Learning Signed Distance 3D Object Reconstruction from Static Images

Chen-Hsuan Lin, Chaoyang Wang|arXiv (Cornell University)|Oct 20, 2020
Advanced Vision and Imaging被引用 50
一句话总结

SDF-SRN 通过可微分渲染利用单视图图像和2D轮廓学习密集型3D符号距离函数表示,从而在没有显式多视图关联的情况下进行单视图训练,并在 ShapeNet 和 PASCAL3D+ 上优于最新方法。

ABSTRACT

Dense 3D object reconstruction from a single image has recently witnessed remarkable advances, but supervising neural networks with ground-truth 3D shapes is impractical due to the laborious process of creating paired image-shape datasets. Recent efforts have turned to learning 3D reconstruction without 3D supervision from RGB images with annotated 2D silhouettes, dramatically reducing the cost and effort of annotation. These techniques, however, remain impractical as they still require multi-view annotations of the same object instance during training. As a result, most experimental efforts to date have been limited to synthetic datasets. In this paper, we address this issue and propose SDF-SRN, an approach that requires only a single view of objects at training time, offering greater utility for real-world scenarios. SDF-SRN learns implicit 3D shape representations to handle arbitrary shape topologies that may exist in the datasets. To this end, we derive a novel differentiable rendering formulation for learning signed distance functions (SDF) from 2D silhouettes. Our method outperforms the state of the art under challenging single-view supervision settings on both synthetic and real-world datasets.

研究动机与目标

  • 从没有3D真实形状的单视图图像集合中推动实用的3D重建。
  • 提出通过从2D轮廓学习的连续隐式3D表示(SDF)。
  • 开发建立在 Scene Representation Networks 上的可微分渲染框架,以从RGB图像优化3D曲面。
  • 实现来自单视图数据的类别特定现实世界3D重建。
  • 在 ShapeNet 和 PASCAL3D+ 上展示比3D无监督基线更优的重建质量。

提出的方法

  • 将3D形状表示为连续隐式函数 f: R^3 -> R,其零水平集定义曲面。
  • 利用2D轮廓距离变换,通过反投影圆锥和圆得到3D SDF 的下界 b(z;u),从而通过图像中的所有像素提供丰富的几何监督。
  • 训练隐式SDF f(theta) 与损失 L_SDF,强制执行来自2D距离变换推导的下界(b)(Eq. 4)。
  • 使用基于 Scene Representation Networks 的可微渲染过程,使曲面与RGB图像对齐,通过双层优化强制射线行进深度与隐式曲面的一致性(Eq. 7)和RGB重建(Eq. 8)。
  • 采用以图像为条件的超网络,从RGB I 预测参数用于 f, g, h(theta, phi, psi),并包含一个朗道正则化以促使 f 的梯度单位范数(Eq. 10)。
  • 端到端训练,结合加权的 L_SDF、L_RGB、L_ray 和 L_eik(Eq. 11)。

实验结果

研究问题

  • RQ1是否能够从单视图图像和2D轮廓中学习密集的3D符号距离函数,而不需要显式的多视图监督?
  • RQ2如何利用2D轮廓距离变换为3D曲面学习提供丰富的几何监督?
  • RQ3相较于占据基或网格先验,基于显式SDF并锚定的可微分渲染是否能在现实世界图像上提升3D重建质量?
  • RQ4在合成与真实图像数据集上,单视图训练的隐式3D形状学习的类别特定优势是什么?

主要发现

  • 在 ShapeNet 数据上,SDF-SRN 在单视图监督下对飞机、汽车和椅子类别的表现优于 SoftRas 和 DVR(准确度和覆盖率指标见表1)。
  • 即使在 ShapeNet 上用深度来自视觉壳层的深度监督的 DVR,其3D形状恢复也被 SDF-SRN 超越(表1)。
  • 在 PASCAL3D+ 的单视图监督下,SDF-SRN 相对 CMR 和 DVR 在飞机、汽车和椅子类别取得定量提升(表4)。
  • 消融研究显示去除RGB渲染、重要性加权或位置编码会降低性能;完整的SDF-SRN并进行测试时优化可获得最佳结果(表3)。
  • SDF-SRN 能从单视图数据实现鲁棒的3D拓扑恢复,并在真实世界图像(PASCAL3D+)上表现良好,显示对大规模真实数据集的实际适用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。