[论文解读] Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation
本论文提出圆柱分区与非对称3D卷积网络(CyAs),用于户外 LiDAR 语义分割,在稀疏且密度变化的户外点云中改进3D几何建模,并在 SemanticKITTI 和 nuScenes 上达到最先进的结果,同时对全景分割和3D检测具备良好泛化能力。
State-of-the-art methods for large-scale driving-scene LiDAR segmentation often project the point clouds to 2D space and then process them via 2D convolution. Although this corporation shows the competitiveness in the point cloud, it inevitably alters and abandons the 3D topology and geometric relations. A natural remedy is to utilize the3D voxelization and 3D convolution network. However, we found that in the outdoor point cloud, the improvement obtained in this way is quite limited. An important reason is the property of the outdoor point cloud, namely sparsity and varying density. Motivated by this investigation, we propose a new framework for the outdoor LiDAR segmentation, where cylindrical partition and asymmetrical 3D convolution networks are designed to explore the 3D geometric pat-tern while maintaining these inherent properties. Moreover, a point-wise refinement module is introduced to alleviate the interference of lossy voxel-based label encoding. We evaluate the proposed model on two large-scale datasets, i.e., SemanticKITTI and nuScenes. Our method achieves the 1st place in the leaderboard of SemanticKITTI and outperforms existing methods on nuScenes with a noticeable margin, about 4%. Furthermore, the proposed 3D framework also generalizes well to LiDAR panoptic segmentation and LiDAR 3D detection.
研究动机与目标
- 以保留3D几何结构为目标的户外 LiDAR 分割,而非依赖2D 投影。
- 通过圆柱分区策略应对户外点云的稀疏性和密度变化。
- 利用面向驾驶场景对象形状的非对称3D卷积来增强3D特征学习。
- 通过点级细化模块降低体素编码导致的信息丢失。
- 展示对 LiDAR 全景分割和3D检测的强泛化能力。
提出的方法
- 圆柱分区将笛卡尔坐标转换为圆柱坐标,并将基于点的 MLP 特征分配到三维圆柱网格,生成平衡的三维表示(半径、方位角、高度)。
- 非对称的3D卷积网络,强调水平和垂直核以匹配驾驶场景对象的分布,并包含非对称残差/下采样/上采样模块。
- 基于维度分解的上下文建模(DDCM),从低秩分量构建高秩全局上下文。
- 点级细化模块,将体素级输出与点级特征融合,以减轻体素化引起的标签编码损失。
- 结合体素级和点级目标,体素输出采用加权交叉熵和 Lovasz-Softmax,点级细化采用加权交叉熵。
实验结果
研究问题
- RQ1圆柱分区是否能在户外 LiDAR 数据中保留3D几何结构并实现平衡的点分布?
- RQ2非对称的水平/垂直核是否在稀疏的户外数据下改善对驾驶场景对象形状的学习?
- RQ3点级细化步骤是否减少体素化编码的信息丢失并提升最终分割质量?
- RQ4CyAs 框架在超越语义分割的 LiDAR 全景分割和3D检测中的泛化能力如何?
- RQ5各组成部分(圆柱分区、非对称CNN、DDCM 与 PR)对性能的影响是什么?
主要发现
| Method | mIoU | car | bicycle | motorcycle | truck | other-vehicle | person | bicyclist | motorcyclist | road | parking | sidewalk | other-ground | building | fence | vegetation | trunk | terrain | pole | traffic |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Ours | 67.8 | 97.1 | 67.6 | 64.0 | 59.0 | 58.6 | 73.9 | 67.9 | 36.0 | 91.4 | 65.1 | 75.5 | 32.3 | 91.0 | 66.5 | 85.4 | 71.8 | 68.5 | 62.6 | 65.6 |
- 在 SemanticKITTI 上达到最先进的 mIoU(本方法:67.8),相较于之前的方法。
- 在 SemanticKITTI 上优于基于投影的方法以及若干3D体素方法(例如,投影方法在 mIoU 上提升8–17%)。
- 在 nuScenes 验证集上,我们的方法获得更高的 mIoU 和逐类结果,尤其在自行车和行人等稀疏类别上有显著提升。
- 消融实验显示圆柱分区与非对称CNN 各自带来约3%的 mIoU 提升;DDCM 增加约1.4%;点级细化增加约0.7%。
- 增强水平和垂直核的非对称残差块可带来高达约3%的 mIoU 提升,在卡车、行人和摩托车等类别上收益更大。
- 全景分割和3D检测实验表明 CyAs 相对基线在 PQ 和 mAP/NDS 上有所提升(例如,全景 PQ 提升约4.7至超过5%;检测的 mAP/NDS 提升约5–6%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。