[论文解读] Rethinking Range View Representation for LiDAR Segmentation
本论文提出 RangeFormer,一种基于 Transformer 的全局上下文的范围视图 LiDAR 分割框架,结合 STR 可扩展训练,在 SemanticKITTI、nuScenes 与 ScribbleKITTI 上达到最先进的结果。
LiDAR segmentation is crucial for autonomous driving perception. Recent trends favor point- or voxel-based methods as they often yield better performance than the traditional range view representation. In this work, we unveil several key factors in building powerful range view models. We observe that the "many-to-one" mapping, semantic incoherence, and shape deformation are possible impediments against effective learning from range view projections. We present RangeFormer -- a full-cycle framework comprising novel designs across network architecture, data augmentation, and post-processing -- that better handles the learning and processing of LiDAR point clouds from the range view. We further introduce a Scalable Training from Range view (STR) strategy that trains on arbitrary low-resolution 2D range images, while still maintaining satisfactory 3D segmentation accuracy. We show that, for the first time, a range view method is able to surpass the point, voxel, and multi-view fusion counterparts in the competing LiDAR semantic and panoptic segmentation benchmarks, i.e., SemanticKITTI, nuScenes, and ScribbleKITTI.
研究动机与目标
- 通过解决范围视图投影中的多对一映射、孔洞和形状变形等问题,推动范围视图 LiDAR 分割的改进。
- 开发 RangeFormer,通过对范围视图网格的自注意力来捕捉全局上下文,并使用轻量级 MLP 头进行解码。
- 引入针对范围视图的增强技术以提升泛化和性能。
- 提出有监督的后处理策略以减轻混叠并提高标注一致性。
- 提出 STR,使高分辨率范围视图的可扩展训练成为可能,同时不牺牲精度。
提出的方法
- 将范围视图分割问题建模为 seq2seq,并在范围图像块上应用自注意力 Transformer 模块。
- 使用 Range Embedding Module 将范围网格点映射到高维嵌入,然后通过多尺度融合的 Transformer 阶段金字塔进行处理。
- 采用简单的 MLP 头和辅助头进行解码以产生语义预测,再将二维预测投影回三维。
- 引入 RangeAug:RangeMix、RangeUnion、RangePaste 和 RangeShift 增强,在光栅化网格上直接操作。
- 实现 RangePost:基于受监督的子云后处理,以在最终标注前缓解多对一冲突。
- 提出 STR:将扫描切分为方位角视图,在水平分辨率上对每个视图进行光栅化训练,每步只对一个视图进行训练,在推理时对整个扫描进行融合。
- 可选扩展为 Panoptic 头(Panoptic-RangeFormer),用于三维实例分组与中心点估计。
实验结果
研究问题
- RQ1自注意力驱动的范围视图模型是否能捕捉长距离依赖,以克服范围视图的局限,如多对一映射、孔洞和形状失真?
- RQ2范围视图特定的增强和有监督后处理是否能在分割精度上超越传统的基于 FCN 的范围视图方法?
- RQ3可扩展训练范式(STR)是否在高分辨率范围视图中可行,且不损害收敛性或准确性?
- RQ4范围视图方法是否能够在标准 LiDAR 分割基准上超越点云、体素和融合方法?
- RQ5RangeFormer 在语义和全景分割基准(SemanticKITTI、nuScenes、ScribbleKITTI)上的性能表现如何?
主要发现
- RangeFormer 在 SemanticKITTI 上达到 73.3 mIoU 和 64.2% PQ,超越此前的范围视图方法以及许多基于融合的方法。
- STR 通过在高分辨率范围视图上训练并降低内存占用来提升训练效率,同时保持竞争性的收敛性与准确性。
- RangeFormer 在 nuScenes 与 ScribbleKITTI 上表现出强劲的结果,表明对更稀疏数据和弱监督设置具备良好泛化能力。
- RangeFormer 结合 STR 在 SemanticKITTI 的语义与全景分割上超过多种前沿方法,同时在速度方面比最近的体素与融合方法快 2x-5x。
- RangeAug 与 RangePost 分别通过解决范围视图特有的挑战和缓解混叠来促进鲁棒学习。
- 全景扩展(Panoptic-RangeFormer)通过将语义预测用作前景掩码以进行基于 2D 的实例分组,从而得到更优的实例中心分割。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。