[论文解读] OccDepth: A Depth-Aware Method for 3D Semantic Scene Completion
OccDepth 是第一种使用立体 RGB 推断的三维语义场景完成(SSC)方法,利用 Stereo-SFA 将深度感知特征融合,并结合带深度蒸馏的 Occupancy Aware Depth (OAD) 模块,在仅视觉输入的 SSC 方法中达到接近最新水平的结果。
3D Semantic Scene Completion (SSC) can provide dense geometric and semantic scene representations, which can be applied in the field of autonomous driving and robotic systems. It is challenging to estimate the complete geometry and semantics of a scene solely from visual images, and accurate depth information is crucial for restoring 3D geometry. In this paper, we propose the first stereo SSC method named OccDepth, which fully exploits implicit depth information from stereo images (or RGBD images) to help the recovery of 3D geometric structures. The Stereo Soft Feature Assignment (Stereo-SFA) module is proposed to better fuse 3D depth-aware features by implicitly learning the correlation between stereo images. In particular, when the input are RGBD image, a virtual stereo images can be generated through original RGB image and depth map. Besides, the Occupancy Aware Depth (OAD) module is used to obtain geometry-aware 3D features by knowledge distillation using pre-trained depth models. In addition, a reformed TartanAir benchmark, named SemanticTartanAir, is provided in this paper for further testing our OccDepth method on SSC task. Compared with the state-of-the-art RGB-inferred SSC method, extensive experiments on SemanticKITTI show that our OccDepth method achieves superior performance with improving +4.82% mIoU, of which +2.49% mIoU comes from stereo images and +2.33% mIoU comes from our proposed depth-aware method. Our code and trained models are available at https://github.com/megvii-research/OccDepth.
研究动机与目标
- 通过利用立体图像中的隐式深度,推动以更便宜的、仅视觉输入的方式改善 3D 语义场景完成(SSC)。
- 引入一个基于立体图像的 SSC 流程,将 2D 特征提升到 3D 占用空间,并实现深度感知融合。
- 开发一个具备占用感知深度的模块,结合深度蒸馏将显式深度先验注入到 3D 特征中。
- 提供一个新的 SemanticTartanAir 基准,用于评估室内场景中的立体输入 SSC。
- 在经验层面展示相较于基于 RGB 的基线改进,以及与 2.5D/3D 输入 SSC 方法的竞争力。
提出的方法
- Stereo Soft Feature Assignment (Stereo-SFA) 将左、右视图之间学习得到的相关性用于把 2D 立体特征融合到 3D 体素空间。
- Occupancy Aware Depth (OAD) 模块预测深度分布,通过可微网格采样将其转换为体素空间的占用先验,并细化 3D 特征。
- 在训练时使用一个立体深度网络(LEAStereo)进行深度蒸馏,以监督深度预测,使 F_D 与密集的接近真值的深度图对齐。
- 两任务损失设计:分离几何(占用)与语义损失,以及基于单目的一致正则化项以稳定训练。
- 缓解过拟合的技巧:2D 主干网络预训练、数据增强,以及逐步衰减的语义损失权重。
- 在 SemanticKITTI、NYUv2 和 SemanticTartanAir 上的评估,以证明基于立体的 SSC 的有效性。
实验结果
研究问题
- RQ1立体(仅视觉)输入是否比 RGB-only 方法更有效地恢复用于 SSC 的密集 3D 几何和语义?
- RQ2通过 OAD 和深度蒸馏实现的显式深度在多大程度上提升了 SSC 的 3D 占用和语义预测?
- RQ3相比于简单融合策略,Stereo-SFA 对 3D 特征提升的贡献有多大?
- RQ4OccDepth 在室内与室外 SSC 基准以及基于新 SemanticTartanAir 的数据集上的表现如何?
主要发现
- OccDepth 在 SemanticKITTI 和 SemanticTartanAir 基准上在仅视觉输入的 SSC 方法中表现卓越。
- +4.82% 的 mIoU 相较于基于 RGB 的 SSC 基线,其中来自立体输入贡献 +2.49% mIoU,来自深度感知组件贡献 +2.33% mIoU。
- Stereo-SFA 相较于取均值或拼接融合带来显著增益,尤其提升 3D 场景完成 IoU。
- OAD 在计算开销极小的情况下带来有意义的 mIoU 增益,深度蒸馏进一步改善深度引导。
- OccDepth 与 2.5D/3D 输入 SSC 方法具有竞争力,同时仅使用立体 RGB(训练时可选深度)。
- 定性结果显示在室内外场景中对细小/远处物体的恢复更好,几何边缘更清晰。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。