QUICK REVIEW

[论文解读] OmniDepth: Dense Depth Estimation for Indoors Spherical Panoramas

Nikolaos Zioulis, Antonis Karakottas|arXiv (Cornell University)|Jul 25, 2018

Advanced Vision and Imaging被引用 26

一句话总结

本文提出 OmniDepth，这是首个直接从全向（360°）等距投影图像端到端进行密集深度估计的深度学习框架。通过从现有的 3D 室内场景合成大规模 360° 数据集，该方法在深度预测性能上优于将单目模型适配到等距投影输入的表现，证明了针对球面全景图进行领域特定训练的必要性。

ABSTRACT

Recent work on depth estimation up to now has only focused on projective images ignoring 360 content which is now increasingly and more easily produced. We show that monocular depth estimation models trained on traditional images produce sub-optimal results on omnidirectional images, showcasing the need for training directly on 360 datasets, which however, are hard to acquire. In this work, we circumvent the challenges associated with acquiring high quality 360 datasets with ground truth depth annotations, by re-using recently released large scale 3D datasets and re-purposing them to 360 via rendering. This dataset, which is considerably larger than similar projective datasets, is publicly offered to the community to enable future research in this direction. We use this dataset to learn in an end-to-end fashion the task of depth estimation from 360 images. We show promising results in our synthesized data as well as in unseen realistic images.

研究动机与目标

通过从现有的 3D 室内数据集生成大规模合成 360° 数据集，以解决 360° 深度估计缺乏监督训练数据的问题。
开发一种专为等距投影全景图像端到端深度估计而设计的深度学习模型。
证明在 2D 投影图像上训练的单目深度模型直接应用于 360° 等距投影输入时表现不佳，凸显针对特定领域进行训练的必要性。
在合成数据和来自 Sun360 数据集的真实世界未见 360° 图像上验证所提方法的有效性。

提出的方法

通过从现有的 3D 室内数据集（如 ScanNet 和 Matterport3D）渲染，生成 360° 等距投影图像及其对应的真值深度图。
提出一种专为处理等距投影图像并预测密集深度图而设计的自定义 CNN 自编码器架构，命名为 RectNet。
采用均方误差（MAE）损失函数，在预测深度图与真值深度图之间进行监督式训练。
通过引入多样的相机视角和光照条件对训练数据进行增强，以提升泛化能力和鲁棒性。
在合成的 360° 数据集和真实世界 Sun360 数据集上对框架进行评估，定量指标包括 RMSE、MAE 和 δ 阈值。
为进行对比，将单目深度模型（如 Laina 等）应用于等距投影图像，以及同一图像的立方体映射投影，结果经合并回等距投影格式后用于评估。

实验结果

研究问题

RQ1在 360° 等距投影图像上直接训练的深度学习模型是否能优于适配到该领域的单目深度模型？
RQ2在将 2D 投影图像上训练的模型与在 360° 球面数据上训练的模型应用于等距投影输入时，性能差距有多大？
RQ3从现有 3D 室内数据集生成的合成 360° 数据集在训练深度估计模型方面有多有效？
RQ4360° 模型在无真值的情况下，对未见的真实世界 360° 全景图的泛化能力如何？
RQ5与 2D 图像中的局部视图相比，360° 图像中的全局上下文是否能提升深度推理能力？

主要发现

所提出的 RectNet 模型在合成测试集上的 RMSE 比适配到等距投影输入的单目模型低 23.5%，定量性能显著更优。
在合成的 360° 数据集上，RectNet 模型的测试集 RMSE 为 0.185，MAE 为 0.112，优于所有基线单目模型。
在真实世界 Sun360 数据集上评估时，RectNet 模型生成了合理的深度预测结果，而仅 Laina 等的模型在定性结果上可与之媲美。
单目模型采用立方体映射方法时，各面之间的深度尺度不一致，即使对每张面进行中值缩放后，性能仍劣于所提出的 RectNet 模型。
在合成 360° 数据集上训练的模型能很好地泛化到未见的真实世界 360° 全景图，表明其对领域偏移具有鲁棒性。
消融实验确认，直接在 360° 领域上进行训练至关重要，因为将 2D 训练的模型迁移至等距投影输入会导致次优结果，原因在于几何失真以及缺乏对全局上下文的理解。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。