[论文解读] OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy Prediction
OccFormer 引入双路径变换器以高效编码来自相机的 3D 体素特征用于 3D 语义占据预测,并采用类似 Mask2Former 的解码策略,结合 preserves-pooling 与类引导采样以处理稀疏性和类别不平衡,在 SemanticKITTI SSC 与 nuScenes LiDAR 分割上达到 state-of-the-art。
The vision-based perception for autonomous driving has undergone a transformation from the bird-eye-view (BEV) representations to the 3D semantic occupancy. Compared with the BEV planes, the 3D semantic occupancy further provides structural information along the vertical direction. This paper presents OccFormer, a dual-path transformer network to effectively process the 3D volume for semantic occupancy prediction. OccFormer achieves a long-range, dynamic, and efficient encoding of the camera-generated 3D voxel features. It is obtained by decomposing the heavy 3D processing into the local and global transformer pathways along the horizontal plane. For the occupancy decoder, we adapt the vanilla Mask2Former for 3D semantic occupancy by proposing preserve-pooling and class-guided sampling, which notably mitigate the sparsity and class imbalance. Experimental results demonstrate that OccFormer significantly outperforms existing methods for semantic scene completion on SemanticKITTI dataset and for LiDAR semantic segmentation on nuScenes dataset. Code is available at \url{https://github.com/zhangyp15/OccFormer}.
研究动机与目标
- 推动基于视觉的 3D 语义占据预测超越 BEV,通过重建细粒度的 3D 结构和语义信息。
- 开发一个高效的 3D 体素特征编码器,采用双路径变换器以捕捉局部细节和全局场景布局。
- 将掩码分类解码器改造用于 3D 占据,并采用缓解稀疏性与类别不平衡的技术。
- 在 SemanticKITTI SSC 上展示 state-of-the-art 性能,在 nuScenes LiDAR 分割上以 RGB 输入实现有竞争力的结果。
提出的方法
- 处理 3D 特征的双路径变换器编码器:包含局部 BEV 切片窗口注意力路径和使用 ASPP 的全局 BEV 路径,通过一个 sigmoid 加权的跳接实现特征融合。
- Image-to-3D 转换:将图像特征提升到 3D 体素体积,使用深度分布的外积与体素池化形成 F3d。
- 受 Mask2Former 启发的基于变换器的占据解码器,包括具多尺度 3D 变形注意力的像素解码器,以及用于掩码嵌入和类别 logits 的变换器解码器。
- Preserve-pooling:用最大池化替代三线性下采样,以在注意力掩码下采样过程中更好地保留稀疏的 3D 占据结构。
- Class-guided sampling:计算类别频率,推导采样权重,并对体素位置执行带偏采样,以改善稀有类别的匹配与监督。
实验结果
研究问题
- RQ1双路径变换器是否能在来自摄像头输入的同时,联合捕捉细粒度局部细节和全局场景结构以实现 3D 语义占据?
- RQ2在稀疏性和类别不平衡条件下,采用 preserve-pooling 与类引导采样的 Mask2Former 改造是否能提升 3D 占据预测?
- RQ3所提 OccFormer 是否能够超越单目和基于视觉的基线,在语义场景完成方面达到更好表现,并在 LiDAR 分割方面实现有竞争力的占据预测?
- RQ4与传统 3D 卷积相比,局部与全局变换路径各自对整体性能与效率的贡献如何?
主要发现
| Method | Input Modality | SC IoU | SSC mIoU | road | sidewalk | parking | other-ground | building | car | truck | bicycle | motorcycle | other-vehicle | vegetation | trunk | terrain | person | bicyclist | motorcyclist | fence | pole | traf-sign |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| OccFormer (ours) | Camera | 34.53 | 12.32 | 55.90 | 30.30 | 31.50 | 6.50 | 15.70 | 21.60 | 1.20 | 1.50 | 1.70 | 3.20 | 16.80 | 3.90 | 21.30 | 2.20 | 1.10 | 0.20 | 11.90 | 3.80 | 3.70 |
- OccFormer 在 SemanticKITTI SSC 上优于单目基线,对 MonoScene 的改进显著且在测试排行榜上表现强势。
- 在 SemanticKITTI 验证集中,OccFormer 的 SSC mIoU 高于若干单目方法,并且在场景完成 IoU 方面表现更好。
- 在 nuScenes 上,以相机为唯一输入的模型实现了具有竞争力的 LiDAR 分割性能,超越 TPVFormer,接近基于 LiDAR 的方法。
- 消融研究表明局部与全局路径均对提升有贡献,双路径编码器比纯 3D 卷积更高效;多尺度 3D 变形注意力优于像素解码器的 FPN-3D。
- Preserve-pooling 与类引导采样对变换器解码器有显著贡献,在消融实验中分别使 mIoU 提升约 0.5 和 1 点以上。
- 模型采用 8x RTX 3090 规模的训练设置,SemanticKITTI 30 个 epoch,nuScenes 24 个 epoch,损失由掩码分类与深度监督等组合而成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。