QUICK REVIEW

[论文解读] SSCBench: A Large-Scale 3D Semantic Scene Completion Benchmark for Autonomous Driving

Yiming Li, Sihang Li|arXiv (Cornell University)|Jun 15, 2023

Robotics and Sensor-Based Localization被引用 9

一句话总结

SSCBench 提供面向街景的大规模单目三维语义场景完成基准，整合 KITTI-360、nuScenes 和 Waymo，并在统一的跨域标签下评估单目、三目摄像头和 LiDAR 输入。

ABSTRACT

Monocular scene understanding is a foundational component of autonomous systems. Within the spectrum of monocular perception topics, one crucial and useful task for holistic 3D scene understanding is semantic scene completion (SSC), which jointly completes semantic information and geometric details from RGB input. However, progress in SSC, particularly in large-scale street views, is hindered by the scarcity of high-quality datasets. To address this issue, we introduce SSCBench, a comprehensive benchmark that integrates scenes from widely used automotive datasets (e.g., KITTI-360, nuScenes, and Waymo). SSCBench follows an established setup and format in the community, facilitating the easy exploration of SSC methods in various street views. We benchmark models using monocular, trinocular, and point cloud input to assess the performance gap resulting from sensor coverage and modality. Moreover, we have unified semantic labels across diverse datasets to simplify cross-domain generalization testing. We commit to including more datasets and SSC models to drive further advancements in this field.

研究动机与目标

解决街景场景大规模 SSC 数据集的稀缺问题。
在多个汽车数据集之间统一语义标签，以实现跨域评估。
提供一个基准，比较在真实驾驶场景下基于单目、三目摄像头和 LiDAR 的 SSC 方法。
量化传感器模态、输入密度和视场对 SSC 性能的影响。
促进跨域泛化研究并为未来的数据集与模型开发提供指导。

提出的方法

将 SSCBench 从 KITTI-360、nuScenes 和 Waymo 整合为统一的 66.9k 帧基准数据集（train/val/test）。
通过聚合多扫点云并通过 3D 边界框同步动态对象来生成地面真实标签。
将聚合的点云体素化为在 51.2 x 51.2 x 6.4 m 体积内的 0.2 m 网格，并通过多数投票分配体素标签。
通过光线追踪遮挡与未探测区域排除未知体素，以确保标签的真实性。
在单目、三目和 LiDAR 输入设置下，对基于相机的方法（MonoScene、VoxFormer、TPVFormer、OccFormer）和基于 LiDAR 的方法（SSCNet、LMSCNet）进行 SSC 基准测试。
提供具有统一标签的跨域评估，以评估 SSCBench 子集之间的迁移（KITTI-360、nuScenes、Waymo）。

实验结果

研究问题

RQ1在多样化街景数据集上，SSC 性能如何随输入模态（单目、三目、LiDAR）而变化？
RQ2场景密度和视场对几何与语义完成性能的影响是什么？
RQ3在统一标签下，在一个域上训练的模型对其他域的泛化能力如何？
RQ4户外场景中基于相机的方法与基于 LiDAR 的方法各自的优缺点是什么？

主要发现

SSCBench 大约比 SemanticKITTI 大 7.7 倍，覆盖六个城市和三个数据集。
在 KITTI-360 和 Waymo 上，LiDAR 基于方法的表现优于相机基础方法；但在稀疏 LiDAR（nuScenes）上，相机方法可以超过 LiDAR 方法。
密集 LiDAR 输入（Waymo）带来强劲的 LiDAR 方法性能，而稀疏 LiDAR（nuScenes）更有利于基于相机的方法在几何度量上的表现。
三目输入相比单目提升了性能，但单目 SSC 仍然是一个具有挑战性且内存高效的选项。
跨域评估揭示在数据集之间迁移时性能显著下降，强调了域间差异以及对鲁棒的泛化模型的需求。
统一标签使跨域迁移分析成为可能，显示即使对齐，域特定偏差也会在各类别的 IoU 与 mIoU 上产生影响。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。