QUICK REVIEW

[论文解读] Deep Depth Completion of a Single RGB-D Image

Yinda Zhang, Thomas Funkhouser|arXiv (Cornell University)|Mar 25, 2018

Advanced Vision and Imaging参考文献 64被引用 21

一句话总结

本文提出了一种两阶段深度学习方法，通过首先从RGB输入中预测表面法线和遮挡边界，然后利用深度约束进行全局优化，以完成RGB-D图像中缺失的深度。该方法在新基准上实现了最先进性能（Rel: 0.089），显著优于传统图像修复和端到端深度估计方法。

ABSTRACT

The goal of our work is to complete the depth channel of an RGB-D image. Commodity-grade depth cameras often fail to sense depth for shiny, bright, transparent, and distant surfaces. To address this problem, we train a deep network that takes an RGB image as input and predicts dense surface normals and occlusion boundaries. Those predictions are then combined with raw depth observations provided by the RGB-D camera to solve for depths for all pixels, including those missing in the original observation. This method was chosen over others (e.g., inpainting depths directly) as the result of extensive experiments with a new depth completion benchmark dataset, where holes are filled in training data through the rendering of surface reconstructions created from multiview RGB-D scans. Experiments with different network inputs, depth representations, loss functions, optimization methods, inpainting methods, and deep depth estimation networks show that our proposed approach provides better depth completions than these alternatives.

研究动机与目标

为解决商品级RGB-D相机因反光、透明或远距离表面导致的深度缺失问题。
开发一种可通过从合成数据而非原始深度观测中学习，从而在多种深度传感器上泛化的模型。
通过利用局部几何先验（法线、边界）而非直接回归深度，提升深度补全的准确性。
建立一个包含105,432张RGB-D图像及真实完成深度的新基准数据集，用于训练与评估。
证明从颜色图像预测表面法线可实现优于直接回归或传统图像修复的深度补全效果。

提出的方法

训练一个深度卷积网络，仅从RGB输入图像中预测表面法线和遮挡边界。
使用全局线性优化方法重建完整深度图，以RGB-D传感器观测到的深度值作为正则化约束。
采用两阶段框架：(1) 从颜色图像中进行局部预测，(2) 在深度约束下进行全局优化。
通过从72个真实场景的多视角RGB-D扫描中渲染深度补全，构建大规模基准数据集。
在优化过程中应用软约束，以在补全缺失区域的同时保留观测到的深度值。
使用可微分优化层，实现法线预测网络的端到端训练。

实验结果

研究问题

RQ1从RGB图像预测表面法线是否能优于直接回归深度，从而提升深度补全性能？
RQ2两阶段方法（先预测法线，再优化深度）是否优于端到端的深度图像修复？
RQ3在基于表面重建的合成数据上训练的网络，能否泛化到真实RGB-D深度补全任务？
RQ4与手工调优的图像修复方法及最先进深度估计网络相比，所提方法表现如何？
RQ5不同损失函数、网络架构与优化策略对深度补全精度的影响是什么？

主要发现

所提方法在基准数据集上达到相对误差（Rel）0.089，显著优于基线图像修复方法（最佳基线：Rel 0.103）。
该方法将RMSE降低至0.116，而次优方法（TGV）为0.146，表明在深度补全精度上具有显著优势。
在真实值1.25倍范围内的预测比例达到76.74%（1.25³），优于最佳基线的81.71%，表明在大误差区域表现优异。
与深度估计网络相比，该方法在未观测像素上的相对误差降低23–40%，展现出强大的泛化能力。
定性比较显示（图8），该方法生成的深度图比联合双边滤波更清晰、更准确。
网络预测法线的能力可跨不同深度传感器泛化，无需为新传感器重新训练。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。