Skip to main content
QUICK REVIEW

[论文解读] NVS Machines: Learning Novel View Synthesis with Fine-grained View Control.

Xu Chen, Jie Song|arXiv (Cornell University)|Jan 7, 2019
Advanced Vision and Imaging被引用 2
一句话总结

该论文提出NVS机器,一种自监督神经网络,可实现对3D物体或场景的高质量新视角合成,并具备精确的6-DOF视角控制。通过结合变换自编码器、基于深度的变形以及逐像素融合掩码,该方法在无需深度或光流图直接监督的情况下实现了几何精度,且能有效泛化至未见过的真实世界图像。

ABSTRACT

We present an approach that learns to synthesize high-quality, novel views of 3D objects or scenes, while providing fine-grained and precise control over the 6-DOF viewpoint. The approach is self-supervised and only requires 2D images and associated view transforms for training. Our main contribution is a network architecture that leverages a transforming auto-encoder in combination with a depth-guided warping procedure to predict geometrically accurate unseen views. Leveraging geometric constraints renders direct supervision via depth or flow maps unnecessary. If large parts of the object are occluded in the source view, a purely learning based prior is used to predict the values for dis-occluded pixels. Our network furthermore predicts a per-pixel mask, used to fuse depth-guided and pixel-based predictions. The resulting images reflect the desired 6-DOF transformation and details are preserved. We thoroughly evaluate our architecture on synthetic and real scenes and under fine-grained and fixed-view settings. Finally, we demonstrate that the approach generalizes to entirely unseen images such as product images downloaded from the internet.

研究动机与目标

  • 实现对3D物体和场景中新视角合成的细粒度6-DOF控制。
  • 通过利用几何约束,消除对深度或光流图直接监督的需求。
  • 在源视角中物体部分被遮挡时,准确重建被遮挡区域。
  • 泛化至未见过的真实世界图像,例如互联网上的产品图像。
  • 仅使用2D图像及其对应视角变换,实现高保真度的视角合成。

提出的方法

  • 该方法采用变换自编码器,以建模输入图像到6-DOF视角变换的关系。
  • 通过基于深度的变形过程,根据预测的深度和相机变换,生成几何上准确的新视角。
  • 预测逐像素掩码,以融合基于深度的变形结果与基于学习的先验,用于被遮挡区域。
  • 网络仅使用2D图像和对应视角变换进行自监督训练,无需真实深度或光流图监督。
  • 通过施加几何约束,确保合成视角的一致性与准确性。
  • 该架构结合显式几何推理与隐式生成先验,以处理遮挡并保持细节。

实验结果

研究问题

  • RQ1自监督网络是否能仅使用2D图像和视角变换,实现高保真度的新视角合成并具备精确的6-DOF控制?
  • RQ2几何约束在视角合成中,是否足以替代对深度或光流图的直接监督?
  • RQ3该模型在未见过的真实世界图像(如互联网上的产品照片)上,泛化能力如何?
  • RQ4基于深度的预测与基于学习的预测的融合,在处理遮挡区域时效果如何?
  • RQ5逐像素掩码在提升视觉质量和几何精度方面有何影响?

主要发现

  • 该模型在合成数据和真实场景上均实现了高质量的新视角合成,且无需真实深度或光流图监督。
  • 几何约束的使用使得即使在无深度图的情况下,也能实现准确的视角合成。
  • 逐像素掩码有效结合了基于深度的预测与基于学习的预测,显著提升了遮挡区域的重建质量。
  • 该方法在未见过的真实世界图像(包括互联网上的产品图像)上表现出良好的泛化能力。
  • 网络在不同6-DOF视角下均保持了精细细节与几何一致性。
  • 自监督训练范式使得模型在极少监督下仍能实现鲁棒性能,仅依赖图像与变换数据。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。