Skip to main content
QUICK REVIEW

[论文解读] Single-view to Multi-view: Reconstructing Unseen Views with a Convolutional Network

Maxim Tatarchenko, Alexey Dosovitskiy|arXiv (Cornell University)|Nov 20, 2015
Computer Graphics and Visualization Techniques参考文献 33被引用 63
一句话总结

本文提出一种卷积神经网络,通过从合成3D模型渲染图像中学习隐式3D表征,仅从单张输入图像即可重建物体的新型未见过的视角。该模型仅在合成数据上进行训练,但能有效泛化到真实世界自然图像,生成彩色图像和深度图,从而实现从单视角进行3D点云和网格重建。

ABSTRACT

We present a convolutional network capable of generating images of a previously unseen object from arbitrary viewpoints given a single image of this object. The input to the network is a single image and the desired new viewpoint; the output is a view of the object from this desired viewpoint. The network is trained on renderings of synthetic 3D models. It learns an implicit 3D representation of the object class, which allows it to transfer shape knowledge from training instances to a new object instance. Beside the color image, the network can also generate the depth map of an object from arbitrary viewpoints. This allows us to predict 3D point clouds from a single image, which can be fused into a surface mesh. We experimented with cars and chairs. Even though the network is trained on artificial data, it generalizes well to objects in natural images without any modifications.

研究动机与目标

  • 在无需多视角监督的情况下,实现对未见过的物体视角的单图像3D视角合成。
  • 从合成3D模型渲染图像中学习可泛化的隐式3D表征,并将其迁移到真实世界物体上。
  • 从单张输入图像和期望的视角生成新型彩色图像和深度图。
  • 通过预测的深度图实现从单张图像进行3D重建(点云和网格)。
  • 评估从合成训练数据到真实自然图像的零样本泛化性能。

提出的方法

  • 网络以单张图像和目标视角作为输入,利用卷积架构预测物体的新视角。
  • 在合成3D模型的渲染图像上进行训练,学习在不同视角间推断形状与外观的能力。
  • 模型同时预测深度图和彩色图像,从而支持3D重建。
  • 预测的深度图用于生成3D点云,随后融合为表面网格。
  • 网络隐式学习物体类别级别的3D表征,使模型可迁移至新且未见过的物体。
  • 无需对真实世界图像进行微调或适应,展示了强大的零样本泛化能力。

实验结果

研究问题

  • RQ1在合成3D模型渲染图像上训练的CNN能否泛化至从单张图像重建真实世界物体的新型视角?
  • RQ2单视角网络在多大程度上能预测准确的深度图以支持3D重建?
  • RQ3从合成数据中学到的隐式3D表征在多大程度上可迁移到真实且未见过的物体上?
  • RQ4预测的深度图能否有效用于从单张图像生成3D点云和表面网格?
  • RQ5当应用于自然图像时,该模型在汽车和椅子等多样化物体类别上是否保持性能?

主要发现

  • 该模型成功从单张图像和任意视角生成逼真的新型物体视角,即使物体在训练期间未见过。
  • 尽管仅在合成数据上训练,网络仍能无需任何微调有效泛化至真实自然图像。
  • 准确预测了深度图,从而实现了从单张图像生成3D点云和表面网格。
  • 从合成数据中学到的隐式3D表征能很好地泛化至真实世界物体,包括汽车和椅子。
  • 该方法在无需多视角监督或显式3D监督的情况下,实现了高质量的视角合成与3D重建。
  • 该方法展示了稳健的零样本泛化能力,表明从合成数据到真实世界数据具有强大的可迁移性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。