[论文解读] Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds
3D-BoNet 在单阶段、无锚框框架中直接回归点云中所有实例的三维边界框和逐点掩码,达到 ScanNet 和 S3DIS 上的最先进结果,并具有高效性。
We propose a novel, conceptually simple and general framework for instance segmentation on 3D point clouds. Our method, called 3D-BoNet, follows the simple design philosophy of per-point multilayer perceptrons (MLPs). The framework directly regresses 3D bounding boxes for all instances in a point cloud, while simultaneously predicting a point-level mask for each instance. It consists of a backbone network followed by two parallel network branches for 1) bounding box regression and 2) point mask prediction. 3D-BoNet is single-stage, anchor-free and end-to-end trainable. Moreover, it is remarkably computationally efficient as, unlike existing approaches, it does not require any post-processing steps such as non-maximum suppression, feature sampling, clustering or voting. Extensive experiments show that our approach surpasses existing work on both ScanNet and S3DIS datasets while being approximately 10x more computationally efficient. Comprehensive ablation studies demonstrate the effectiveness of our design.
研究动机与目标
- 在原始点云上直接实现高效的三维实例分割,而不需要繁琐的后处理或密集的候选区域。
- 开发一个边界框预测模块,能够处理可变数量的实例以及无序的输出。
- 通过在统一框架中将物体边界与逐点掩码预测耦合,实现精确的实例分割。
提出的方法
- 主干网络从输入点云中提取逐点局部特征和全局场景特征。
- 边界框预测分支从全局特征回归一个固定集合 H 的三维边界框及其对应的置信分数。
- 边界框关联层通过解决匈牙利分配问题,将真实框与预测框匹配以用于监督。
- 多标准损失结合欧几里得框距离、点上的 soft IoU (sIoU) 以及交叉熵得分来监督边界框预测。
- 逐点掩码预测分支融合边界框、局部特征和全局特征,预测每个实例的逐点二元掩码,针对类别不平衡使用 focal loss。
- 使用共享主干(PointNet++)的端到端训练,以及用标准交叉熵训练的语义分支。
实验结果
研究问题
- RQ1单阶段、无锚框的框架是否能够直接从点云中学习到准确的实例三维边界框,而无需后处理?
- RQ2将几何边界框监督与逐点覆盖范围的 sIoU 以及边界框置信度相结合,是否能提升实例与真实实例之间的绑定?
- RQ3一个简单、共享、具边界框感知的逐点掩码分支在跨越多样对象类别的实例分割任务中表现如何?
- RQ4与基于候选区域的或后处理密集的方法相比,计算效率提升有多大?
- RQ5由于具备类别无关的掩码分支,该框架是否能够泛化到未见类别?
主要发现
- 3D-BoNet 在 ScanNet v2 上的 AP at IoU 0.5 超过若干基线,同时计算效率大约提升 10 倍。
- 边界框关联和多标准损失在可变实例设置中实现预测框与真实框之间的可靠匹配。
- 逐点掩码分支通过重用全局和局部特征且不使用 RoI pooling 实现具有竞争力的实例级分割。
- 消融研究表明,边框分数分支与完整的多标准损失显著提升性能,相较于单一准则或无边框监督的配置。
- 在 S3DIS 上,3D-BoNet 的平均精度更高,召回率相对于 PartNet 和 ASIS 基线相当,完整框架实现最佳性能。
- 计算分析表明该方法的时间复杂度为 O(N),在 4k 点时实际 GPU 运行时间约为 20 ms,显著快于聚类或密集候选方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。