[论文解读] OneFormer3D: One Transformer for Unified Point Cloud Segmentation
OneFormer3D 提出一个基于单一 transformer 的框架,将语义、实例和全景分割在3D点云上统一,在全景数据上端到端训练,并在 ScanNet、ScanNet200 和 S3DIS 上实现了最先进的结果。
Semantic, instance, and panoptic segmentation of 3D point clouds have been addressed using task-specific models of distinct design. Thereby, the similarity of all segmentation tasks and the implicit relationship between them have not been utilized effectively. This paper presents a unified, simple, and effective model addressing all these tasks jointly. The model, named OneFormer3D, performs instance and semantic segmentation consistently, using a group of learnable kernels, where each kernel is responsible for generating a mask for either an instance or a semantic category. These kernels are trained with a transformer-based decoder with unified instance and semantic queries passed as an input. Such a design enables training a model end-to-end in a single run, so that it achieves top performance on all three segmentation tasks simultaneously. Specifically, our OneFormer3D ranks 1st and sets a new state-of-the-art (+2.1 mAP50) in the ScanNet test leaderboard. We also demonstrate the state-of-the-art results in semantic, instance, and panoptic segmentation of ScanNet (+21 PQ), ScanNet200 (+3.8 mAP50), and S3DIS (+0.8 mIoU) datasets.
研究动机与目标
- 证明语义、实例和全景3D分割可以用单一模型联合解决。
- 引入具有语义和实例查询的查询解码器以实现统一的掩模生成。
- 开发一个查询选择和解耦匹配策略以稳定并加速训练。
- 展示在 ScanNet、ScanNet200 和 S3DIS 上端到端在全景数据上训练的最先进性能。
提出的方法
- 使用稀疏3D U-Net骨干网络提取逐点特征。
- 应用灵活的池化(超点或体素)以降低 transformer 解码器的计算量。
- 结合带有语义和实例查询的 transformer 解码器以生成掩模的学习核。
- 采用解耦匹配方案,通过将超点直接与真实对象建立关联来避免 Hungarian 匹配。
- 使用包括实例分类、掩模 BCE 和 Dice 损失,以及语义 BCE 损失在内的组合损失进行训练。
实验结果
研究问题
- RQ1单一统一模型能否有效解决语义、实例和全景3D分割?
- RQ2与任务特定模型相比,语义和实例查询的联合训练是否提升了3D分割性能?
- RQ3查询选择和解耦匹配是否能稳定训练并提高基于3D transformer 的分割准确性?
- RQ4在使用 OneFormer3D 时,在 ScanNet、ScanNet200 和 S3DIS 上能获得哪些最先进的性能提升?
主要发现
- 在 ScanNet、ScanNet200 和 S3DIS 的3D语义、实例和全景分割中实现最先进的结果。
- 在 ScanNet 验证集上,OneFormer3D 在实例、语义和全景任务上均达到最高分,超越基线如 SPFormer 和 Mask3D。
- 展示了一种新颖的线性时间关联的解耦匹配,替代传统的 Hungarian 算法。
- 展示单一模型的联合训练带来的显著收益,包括语义 mIoU 的提升和鲁棒的全景性能。
- 预训练(真实和合成)以及移除超点池化可能影响性能,大规模预训练带来显著收益。)
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。