[论文解读] SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving
SurroundOcc 通过多摄像头图像使用 2D-3D 空间注意力和多尺度 3D 体积来预测密集的 3D 占据,并配有密集占据地面真值生成流水线,在 nuScenes 与 SemanticKITTI 上取得了最先进的结果。
3D scene understanding plays a vital role in vision-based autonomous driving. While most existing methods focus on 3D object detection, they have difficulty describing real-world objects of arbitrary shapes and infinite classes. Towards a more comprehensive perception of a 3D scene, in this paper, we propose a SurroundOcc method to predict the 3D occupancy with multi-camera images. We first extract multi-scale features for each image and adopt spatial 2D-3D attention to lift them to the 3D volume space. Then we apply 3D convolutions to progressively upsample the volume features and impose supervision on multiple levels. To obtain dense occupancy prediction, we design a pipeline to generate dense occupancy ground truth without expansive occupancy annotations. Specifically, we fuse multi-frame LiDAR scans of dynamic objects and static scenes separately. Then we adopt Poisson Reconstruction to fill the holes and voxelize the mesh to get dense occupancy labels. Extensive experiments on nuScenes and SemanticKITTI datasets demonstrate the superiority of our method. Code and dataset are available at https://github.com/weiyithu/SurroundOcc
研究动机与目标
- 激发并实现基于多摄像头输入的密集 3D 场景理解,超越稀疏目标检测。
- 开发一个框架,将 2D 多视图特征提升到 3D 占据体积。
- 通过多尺度 3D 体积上采样并配合有效监督,预测密集的 3D 占据。
- 创建一个实用的流水线,在不需要昂贵标注的情况下生成密集占据地面真值。
提出的方法
- 使用骨干网络从每个相机图像提取多尺度 2D 特征。
- 应用 2D-3D 空间注意力将多摄像头特征提升到 3D 体积空间,而不是 BEV。
- 使用多尺度的 3D UNet-like 架构,逐步对体积特征进行上采样与融合。
- 在多个层级对占据预测进行监督,采用衰减的损失权重以促进细节保留。
- 通过拼接多帧 LiDAR 数据(静态与动态)并应用 Poisson 重建来生成密集占据地面真值,随后进行体素化和基于神经网络的语义标注。
实验结果
研究问题
- RQ1是否可以使用 3D voxel 表示从多摄像头图像中可靠地预测密集的 3D 占据?
- RQ2基于 3D 体积的跨视图融合是否优于基于 BEV 的融合在多摄像头占据预测中的表现?
- RQ3多尺度监督和密集地面真值占据对预测质量的影响是什么?
- RQ4使用多帧 LiDAR 和 Poisson 重建的密集占据地面真值流水线是否可以在无需手动标注的情况下提供有效监督?
- RQ5在如 nuScenes 和 SemanticKITTI 等标准基准上,SurroundOcc 在 3D 语义占据和场景重建方面的表现如何?
主要发现
- SurroundOcc 在 nuScenes 上的 3D 语义占据预测和 3D 场景重建基准上达到最先进水平。
- 尽管并非为单目输入设计,该方法在 SemanticKITTI 上展示了强烈的单目语义场景完成结果。
- 基于 3D 体积的跨视图注意力机制比 BEV 基融合更好地保留了 3D 空间信息。
- 在密集地面真值监督下的多尺度占据预测相比稀疏 LiDAR 监督显著提高占据密度和质量。
- 通过多帧拼接和 Poisson 重建生成的密集占据地面真值在性能上超过使用单帧 LiDAR 点或稀疏占据标注。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。