QUICK REVIEW

[论文解读] DeepStereo: Learning to Predict New Views from the World's Imagery

John P. Flynn, Ivan Neulander|arXiv (Cornell University)|Jun 22, 2015

Advanced Vision and Imaging参考文献 30被引用 86

一句话总结

本文提出 DeepStereo，一种端到端训练的深度学习框架，直接从带有姿态的图像中预测新视角，其训练基于大规模真实世界图像。通过利用颜色、深度和纹理的隐式先验，该方法在树木和高光表面等复杂场景中表现出优雅的退化特性，尽管训练数据多样且非理想，其生成的新视角合成质量仍优于传统 IBR 方法，视觉合理性更佳。

ABSTRACT

Deep networks have recently enjoyed enormous success when applied to recognition and classification problems in computer vision, but their use in graphics problems has been limited. In this work, we present a novel deep architecture that performs new view synthesis directly from pixels, trained from a large number of posed image sets. In contrast to traditional approaches which consist of multiple complex stages of processing, each of which require careful tuning and can fail in unexpected ways, our system is trained end-to-end. The pixels from neighboring views of a scene are presented to the network which then directly produces the pixels of the unseen view. The benefits of our approach include generality (we only require posed image sets and can easily apply our method to different domains), and high quality results on traditionally difficult scenes. We believe this is due to the end-to-end nature of our system which is able to plausibly generate pixels according to color, depth, and texture priors learnt automatically from the training data. To verify our method we show that it can convincingly reproduce known test views from nearby imagery. Additionally we show images rendered from novel viewpoints. To our knowledge, our work is the first to apply deep learning to the problem of new view synthesis from sets of real-world, natural imagery.

研究动机与目标

解决使用深度学习从真实世界自然图像中进行新视角合成的挑战。
克服传统多阶段图像基渲染（IBR）方法存在的伪影问题，如撕裂和混叠。
实现从输入视角到未见视角像素的复杂非线性映射的端到端学习，无需显式建模立体匹配、遮挡或深度信息。
仅使用带有姿态的图像集合作为输入，实现对室内和室外等多种场景的泛化能力。
即使在存在运动、遮挡和无纹理表面的情况下，也能生成视觉上合理的输出结果。

提出的方法

该模型采用全卷积神经网络架构，接收多个带有姿态的输入图像，并直接回归到新目标视角的像素颜色。
将输入图像重投影到 96 个深度平面，构建体素表示，随后送入网络进行联合处理。
网络采用每个输入图像共享的编码器塔结构，随后通过融合模块结合不同视角和深度层的特征。
使用预测目标视角像素与真实值之间的像素级 L2 损失，进行端到端训练。
模型利用来自 Google Street View 的大规模真实世界数据进行训练，其中每张图像均作为目标视角，其余图像作为输入。
网络架构旨在从数据中隐式学习深度、颜色一致性与纹理的先验，从而实现稳健的泛化能力。

实验结果

研究问题

RQ1能否在不显式进行 3D 重建或立体匹配建模的情况下，端到端训练深度神经网络，直接从多张带有姿态的图像中合成新视角？
RQ2与传统 IBR 方法相比，该模型在复杂几何结构（如树木、玻璃和遮挡）场景中的泛化能力如何？
RQ3该模型能否在存在运动、高光和变化基线的现实数据中保持视觉合理性？
RQ4端到端训练是否使网络能够学习到有效的深度、颜色和纹理先验，从而提升合成质量？
RQ5当在具有不同特征的数据（如 Street View）上进行训练时，与先前工作的测试集相比，该模型的性能表现如何？

主要发现

模型生成的视觉上合理的新型视角难以与真实图像区分，即使在宽基线视角之间插值时亦然。
尽管训练数据（Google Street View）与 [1] 中的数据集显著不同（相机特性也不同），该方法在 [1] 的数据集上仍取得了具有竞争力的结果。
网络通过模糊化处理运动和高光区域，避免了传统 IBR 中常见的撕裂或重复伪影，表现出优雅的退化特性。
细小的前景结构和部分遮挡物体常因过度模糊而丢失，表明在细节保留方面存在局限性。
当相机运动超出训练假设范围时，模型表现出优雅的退化，即使在场景运动存在的情况下仍能保持视觉连贯性。
系统对自遮挡结构（如树木）和复杂纹理具有鲁棒性，无需显式几何建模即可生成一致的结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。