[论文解读] Monocular Neural Image Based Rendering with Continuous View Control
该论文提出了一种单目神经图像基于渲染方法,仅使用单张输入图像即可实现实时、连续的新型视图合成,并在细粒度6-DoF相机控制下实现高精度。通过将几何变换(如3D旋转、平移和透视投影)注入可学习的变换自编码器,并结合深度引导的外观扭曲,模型隐式学习到一种紧凑且有意义的3D几何表示,从而在视图合成精度和训练视图之外的泛化能力方面达到最先进水平。
We present an approach that learns to synthesize high-quality, novel views of 3D objects or scenes, while providing fine-grained and precise control over the 6-DOF viewpoint. The approach is self-supervised and only requires 2D images and associated view transforms for training. Our main contribution is a network architecture that leverages a transforming auto-encoder in combination with a depth-guided warping procedure to predict geometrically accurate unseen views. Leveraging geometric constraints renders direct supervision via depth or flow maps unnecessary. If large parts of the object are occluded in the source view, a purely learning based prior is used to predict the values for dis-occluded pixels. Our network furthermore predicts a per-pixel mask, used to fuse depth-guided and pixel-based predictions. The resulting images reflect the desired 6-DOF transformation and details are preserved. We thoroughly evaluate our architecture on synthetic and real scenes and under fine-grained and fixed-view settings. Finally, we demonstrate that the approach generalizes to entirely unseen images such as product images downloaded from the internet.
研究动机与目标
- 实现实时、连续的新型视图合成,仅从单张单目图像出发,并在细粒度相机控制(例如1°步长)下进行。
- 克服现有方法在连续视点运动下性能下降且对训练视图过拟合的局限性。
- 从单张图像隐式学习有意义的3D几何表示,无需显式的3D监督。
- 在单个物体和自然场景中均实现高保真度、几何准确的视图合成。
提出的方法
- 提出一种变换编码器-解码器(TAE)网络,显式在欧氏空间中对潜在码施加3D旋转和平移,以在潜在空间中强制实现几何一致性。
- 使用可微分的深度预测头,从变换后的潜在码生成目标视图中的深度图。
- 基于预测的深度,通过透视投影计算源视图与目标视图之间的密集像素对应关系。
- 利用预测的光流图执行可微分图像扭曲,以合成最终输出图像。
- 采用深度引导的外观映射来优化最终图像,提升几何准确性和细节保留效果。
- 仅使用图像对及其对应的相机变换作为监督信号,端到端训练整个流水线。
实验结果
研究问题
- RQ1神经网络能否在无显式3D监督的情况下,从单张单目图像中学习到紧凑且有意义的3D几何表示?
- RQ2在潜在空间中显式注入3D几何变换(旋转、平移、透视)是否能提升对新型非训练视点的泛化能力?
- RQ3在连续6-DoF相机控制下,深度引导的扭曲是否能显著提升合成视图的质量和几何准确性?
- RQ4在视图合成质量、视点控制精度以及对连续运动的鲁棒性方面,该方法与最先进基线方法相比表现如何?
主要发现
- 在KITTI数据集上,与基线方法相比,该方法的相机位姿估计误差显著更低(旋转L1为0.108,平移L1为0.019),表明其具备更优的视点控制精度。
- 该模型无需微调即可良好泛化至高分辨率图像(1024²),在Titan X GPU上每帧推理时间仅为50ms。
- 深度引导扭曲和TAE组件各自提升了光流和深度预测的准确性,完整模型在ShapeNet汽车数据集上达到85.7%的光流准确率和91.1%的深度准确率。
- 潜在空间插值与旋转实验表明,所学表示在语义上具有意义且几何上一致,形状过渡平滑,视点变化相互隔离。
- 视觉里程计实验表明,使用该方法合成视图估计的轨迹与真实轨迹高度吻合,而基线方法则产生失真或错误的运动轨迹。
- 该方法在公开数据集上的表现优于先前最先进方法,尤其在连续视图合成和对未见视点的泛化能力方面表现突出。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。