[论文解读] Deep Sliding Shapes for Amodal 3D Object Detection in RGB-D Images
本文提出 Deep Sliding Shapes,一种基于 3D ConvNet 的框架,用于在 RGB-D 图像中进行非模态 3D 物体检测,采用 3D 区域提议网络(RPN)生成多尺度 3D 提议框,并通过联合 2D-3D ConvNet 回归 3D 边界框并分类物体。该方法相比最先进方法 mAP 提升 13.8,推理速度比原始 Sliding Shapes 快 200 倍。
We focus on the task of amodal 3D object detection in RGB-D images, which aims to produce a 3D bounding box of an object in metric form at its full extent. We introduce Deep Sliding Shapes, a 3D ConvNet formulation that takes a 3D volumetric scene from a RGB-D image as input and outputs 3D object bounding boxes. In our approach, we propose the first 3D Region Proposal Network (RPN) to learn objectness from geometric shapes and the first joint Object Recognition Network (ORN) to extract geometric features in 3D and color features in 2D. In particular, we handle objects of various sizes by training an amodal RPN at two different scales and an ORN to regress 3D bounding boxes. Experiments show that our algorithm outperforms the state-of-the-art by 13.8 in mAP and is 200x faster than the original Sliding Shapes. All source code and pre-trained models will be available at GitHub.
研究动机与目标
- 为解决 RGB-D 图像中因遮挡或截断导致的非模态 3D 物体检测挑战,目标是预测完整的 3D 边界框。
- 通过端到端 3D 深度学习,克服基于 2D 的方法(如 Depth RCNN)和基于 3D 手工设计的方法(如 Sliding Shapes)的局限性。
- 通过直接从 3D 提议框回归 3D 边界框,消除对外部 CAD 模型或后处理 3D 拟合的依赖。
- 通过联合学习来自深度图的 3D 几何特征与来自 RGB 图像的 2D 颜色特征,提升检测精度与速度。
提出的方法
- 提出首个基于 3D 卷积网络的区域提议网络(RPN),以 3D 体素场景(来自深度图)为输入,输出两个尺度的非模态 3D 物体提议框,以应对尺寸变化。
- 引入联合物体识别网络(ORN),通过 3D 卷积网络处理 3D 提议框以提取几何特征,同时通过 2D 卷积网络处理从 3D 提议框投影得到的 2D 图像块以提取颜色特征。
- 采用多尺度 RPN,通过不同感受野生成提议框,提升对不同尺寸物体的检测鲁棒性。
- 利用曼哈顿世界假设定义 3D 边界框方向,通过几何先验简化 3D 检测任务。
- 直接从 3D 提议框端到端回归 3D 边界框,避免 CAD 模型拟合或 ICP 对齐的需要。
- 利用 3D 体素表示学习强大的 3D 形状特征,同时融合 2D 颜色特征以提升类别识别能力。
实验结果
研究问题
- RQ1基于 3D 卷积网络的区域提议网络是否能在使用 RGB-D 数据进行非模态 3D 物体检测时优于基于 2D 的方法?
- RQ2与仅使用深度或仅使用颜色特征相比,联合 2D-3D 特征学习是否能提升检测精度?
- RQ3能否通过从 3D 提议框端到端回归 3D 边界框,消除后处理 3D 模型拟合的需要,并同时提升速度与精度?
- RQ4多尺度提议生成在处理 3D 空间中物理尺寸各异的物体时是否有效?
- RQ5即使深度信号频率较低,3D 深度表示能否学习到比 2D 表示(如 HHA)更强大的几何特征?
主要发现
- 所提方法在 SUN RGB-D 数据集上达到 84.7% mAP,相比之前最先进方法提升 13.8 mAP。
- 模型推理速度比原始 Sliding Shapes 快 200 倍,单次 GPU 前向传播即可实现实时推理。
- 3D 边界框回归在使用 3D Selective Search 时提升 mAP 4.4 分,在使用 RPN 时提升 4.1 分,证明其有效性。
- 联合 2D-3D ORN 通过融合颜色与几何线索,提升检测性能,使相似形状物体(如床与桌子)的区分更加准确。
- 尺寸剪枝后处理可减少误检,使部分类别 mAP 提升高达 7.8 分,证明其在过滤不合理提议中的价值。
- 该方法无需外部训练数据(如无 CAD 模型)即实现优异性能,优于依赖此类数据的方法,证明 3D 深度表示的强大能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。