[论文解读] DSGN: Deep Stereo Geometry Network for 3D Object Detection
DSGN 提出了一种基于立体视觉的端到端 3D 目标检测框架,通过从平面扫掠体积构建可微分的 3D 几何体(3DGV),联合回归深度并检测 3D 目标。通过在完全可微的 3D 世界空间中编码 3D 几何与语义信息,DSGN 在基于立体视觉的检测器中实现了最先进性能,在 KITTI 基准上比之前的方法高出约 10 个 AP 点,并在性能上与多个基于 LiDAR 的方法相当。
Most state-of-the-art 3D object detectors heavily rely on LiDAR sensors because there is a large performance gap between image-based and LiDAR-based methods. It is caused by the way to form representation for the prediction in 3D scenarios. Our method, called Deep Stereo Geometry Network (DSGN), significantly reduces this gap by detecting 3D objects on a differentiable volumetric representation -- 3D geometric volume, which effectively encodes 3D geometric structure for 3D regular space. With this representation, we learn depth information and semantic cues simultaneously. For the first time, we provide a simple and effective one-stage stereo-based 3D detection pipeline that jointly estimates the depth and detects 3D objects in an end-to-end learning manner. Our approach outperforms previous stereo-based 3D detectors (about 10 higher in terms of AP) and even achieves comparable performance with several LiDAR-based methods on the KITTI 3D object detection leaderboard. Our code is publicly available at https://github.com/chenyilun95/DSGN.
研究动机与目标
- 通过从立体图像中实现有效的 3D 表示学习,弥合基于图像与基于 LiDAR 的 3D 目标检测之间的性能差距。
- 通过引入可微分的 3D 几何体(3DGV)来解决从 2D 图像中提取不稳定 3D 特征的挑战,以编码真实世界的 3D 几何结构。
- 将深度估计与 3D 目标检测统一为一个端到端可训练的流水线,而无需依赖非可微分的点云变换。
- 证明基于立体视觉的方法可通过几何感知的体素化表示实现与基于 LiDAR 的检测器相当的性能。
提出的方法
- 该方法在相机视锥空间中构建平面扫掠体积(PSV),以编码立体对应关系和视差信息。
- 然后通过使用三线性插值的可微分 3D 坐标映射,将 PSV 转换为真实世界 3D 空间中的 3D 几何体(3DGV)。
- 3DGV 作为可微分的、具有几何感知能力的特征表示,保留了深度与语义线索,用于 3D 检测。
- 网络通过共享主干网络和端到端反向传播,联合优化立体匹配与 3D 目标检测。
- 3DGV 使用预定义的坐标体构建,该坐标体通过相机投影矩阵将 3D 体素位置映射到图像平面的 2D 像素坐标。
- 通过三线性插值在投影坐标处从 PSV 获取特征,超出边界的坐标设为零。
实验结果
研究问题
- RQ1可微分的 3D 几何体能否有效弥合 2D 图像特征与 3D 世界空间之间在 3D 目标检测中的差距?
- RQ2在立体设置下,联合端到端学习深度估计与 3D 目标检测是否能优于两阶段或非可微分的流水线?
- RQ3基于立体视觉的方法在使用几何感知体素化表示时,能在多大程度上实现与基于 LiDAR 的检测器相当的性能?
- RQ4与点云或其他中间表示相比,3D 几何体在检测精度与训练效率方面表现如何?
主要发现
- DSGN 在 KITTI 3D 目标检测基准上比之前基于立体视觉的 3D 目标检测器高出 10 个平均精度(AP)点。
- 该方法在 KITTI 3D 检测排行榜上实现了与多个基于 LiDAR 的检测器相当的性能,尤其在简单和中等难度级别表现优异。
- 在鸟瞰图(BEV)检测中,DSGN 在困难难度级别与最先进基于 LiDAR 的方法相比存在 12 个 AP 的差距,表明其在遮挡或远距离物体上的鲁棒性仍有提升空间。
- 该网络计算效率高,可在单张 Tesla V100 GPU 上运行,是高端 LiDAR 传感器的经济高效替代方案。
- 从 PSV 到 3DGV 的可微分映射使立体匹配与 3D 检测能够联合优化,提升了特征一致性与预测准确性。
- 定性结果表明,DSGN 能生成准确的 3D 检测框与深度图,但在近/远区域以及超过 3 米高度的位置观察到一定噪声,原因在于真实深度监督稀疏。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。