Skip to main content
QUICK REVIEW

[论文解读] 3D-Aware Scene Manipulation via Inverse Graphics

Shunyu Yao, Tzu Ming Harry Hsu|arXiv (Cornell University)|Aug 28, 2018
Computer Graphics and Visualization Techniques参考文献 10被引用 44
一句话总结

论文提出3D-SDN,是一个学习解耦语义、几何、外观的编码-解码框架,支持通过可微形状渲染器和纹理生成器实现3D感知编辑。它在Virtual KITTI和Cityscapes上对比2D基线,显示在图像编辑基准和消融实验中的优秀3D感知编辑能力。

ABSTRACT

We aim to obtain an interpretable, expressive, and disentangled scene representation that contains comprehensive structural and textural information for each object. Previous scene representations learned by neural networks are often uninterpretable, limited to a single object, or lacking 3D knowledge. In this work, we propose 3D scene de-rendering networks (3D-SDN) to address the above issues by integrating disentangled representations for semantics, geometry, and appearance into a deep generative model. Our scene encoder performs inverse graphics, translating a scene into a structured object-wise representation. Our decoder has two components: a differentiable shape renderer and a neural texture generator. The disentanglement of semantics, geometry, and appearance supports 3D-aware scene manipulation, e.g., rotating and moving objects freely while keeping the consistent shape and texture, and changing the object appearance without affecting its shape. Experiments demonstrate that our editing scheme based on 3D-SDN is superior to its 2D counterpart.

研究动机与目标

  • 旨在获得可解释、表达力强且解耦的场景表示,编码场景语义、物体几何/姿态以及外观。
  • 实现3D感知的场景操作,例如移动和旋转物体,同时保持形状与纹理。
  • 利用可微渲染器将几何与纹理融合,以实现逼真的场景重建。
  • 提供一个支持对象级编辑并与2D基线进行评估的编码-解码框架。

提出的方法

  • 使用三分支编码器(语义、几何、纹理)将图像去渲染为结构化的逐对象表示。
  • 应用可微形状渲染器来推断每个对象的3D网格、姿态和自由形变(FFD)。
  • 采用带有实例级纹理编码的纹理去渲染器,以及基于条件GAN的纹理渲染器来重建图像。
  • 通过向纹理分支输入3D姿态/法线图来解耦几何和纹理,以防止姿态模糊的纹理编码。
  • 训练时结合3D属性预测损失、再投影损失、基于GAN的纹理损失、特征匹配和感知损失。

实验结果

研究问题

  • RQ1一个编码-解码框架是否能够学习场景的解耦语义、几何和纹理表征?
  • RQ2引入可微3D渲染器是否能够实现如改变对象姿态/位置而保持纹理的3D感知编辑?
  • RQ3显式3D监督和重投影一致性对3D属性估计和渲染保真度的贡献是什么?
  • RQ4与纯2D编辑方法相比,3D感知编辑在感知质量和真实感方面有何差异?

主要发现

  • 3D-SDN框架通过解耦语义、几何和外观实现3D感知编辑,使姿态/位置的变化不改变纹理,反之亦然。
  • 在Virtual KITTI和Cityscapes上,3D感知编辑在感知度量和人工判断方面优于2D基线。
  • 消融研究表明,结合多个CAD网格与FFD、重投影损失以及合适的四元数/间距约束能够提高3D属性准确性和轮廓重投影。
  • 定量结果表明,在给定基准上,3D-SDN编辑相较于2D基线具有更低的LPIPS分数和更高的人类偏好。
  • 该方法产生一致的3D表示(实例、姿态、法线图),支持鲁棒的3D操作与遮挡推理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。