QUICK REVIEW

[论文解读] Stereo Magnification: Learning View Synthesis using Multiplane Images

Tinghui Zhou, Richard Tucker|arXiv (Cornell University)|May 24, 2018

Advanced Vision and Imaging参考文献 5被引用 140

一句话总结

本文学习 Multiplane Image (MPI) 表示来从窄基线立体对合成新视图，实现从 YouTube 视频数据学习的外推视图合成。MPI 一旦学习就能高效渲染多视点。

ABSTRACT

The view synthesis problem--generating novel views of a scene from known imagery--has garnered recent attention due in part to compelling applications in virtual and augmented reality. In this paper, we explore an intriguing scenario for view synthesis: extrapolating views from imagery captured by narrow-baseline stereo cameras, including VR cameras and now-widespread dual-lens camera phones. We call this problem stereo magnification, and propose a learning framework that leverages a new layered representation that we call multiplane images (MPIs). Our method also uses a massive new data source for learning view extrapolation: online videos on YouTube. Using data mined from such videos, we train a deep network that predicts an MPI from an input stereo image pair. This inferred MPI can then be used to synthesize a range of novel views of the scene, including views that extrapolate significantly beyond the input baseline. We show that our method compares favorably with several recent view synthesis methods, and demonstrate applications in magnifying narrow-baseline stereo images.

研究动机与目标

为窄基线立体和对输入视图之外的外推视图的视图合成研究提供动机。
提出一种新的场景表示（MPI），适合一次预测并可用于多视图的复用。
利用大规模在线视频数据来训练用于视角外推的模型。
展示改进的视图合成质量以及放大立体基线的能力。
展示所学习的模型对新数据集的泛化能力并支持高效渲染。

提出的方法

引入 Multiplane Images (MPIs)：一组前向平行的 RGBa 平面，每个平面的 alpha 用于软遮挡和透明度。
输入是一个立体对和相机参数；计算一个平面扫描体积以编码网络所需的场景几何信息。
网络输出每个平面的 alpha 映射、全局背景图像以及用于将 RGB 值混合的逐平面权重。
通过对每个平面应用逆单应性变换并以从后向前的顺序进行 alpha 复合，在一个可微分的流水线中渲染新视图。
使用感知损失（基于 VGG）与真实目标进行对比来训练。
使用一个大规模的 YouTube 房地产视频数据集来挖掘训练三元组并执行姿态细化与尺度归一化。

实验结果

研究问题

RQ1从两视立体对学习得到的 MPI 表示是否能支撑高质量的外推视图合成？
RQ2预测一个共享的 MPI 是否可以实现对大量新视图的实时高效渲染？
RQ3是否可以利用大规模、自然场景中的视频数据来训练用于窄基线外推视图的模型？
RQ4在不重新训练的情况下，该方法对不同数据集的泛化能力如何？

主要发现

MPI 表示在对每个场景仅预测一次后即可实现对新视图的渲染（包括外推视图），并实现实时性能。
与 Kalantari 等人配置等基线相比，该方法在保留测试数据上的数值性能更好。
推断出的 MPI 在空间上稳定且可用于多视图复用，从而在各视点上得到一致的渲染。
该模型对其他数据集具有泛化能力，无需额外训练，并且在放大窄立体基线方面效果显著。
基于 YouTube 的大规模训练数据集可以为在多样场景中学习视角外推提供合适的数据。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。