[論文レビュー] SSCBench: A Large-Scale 3D Semantic Scene Completion Benchmark for Autonomous Driving
SSCBench は大規模なモノキュラー3D セマンティックシーン完了のベンチマークを街路ビュー向けに提供し、KITTI-360、nuScenes、Waymo を統合し、モノキュラー、トリノキュラー、 LiDAR 入力を統一されたクロスドメインラベルで評価します。
Monocular scene understanding is a foundational component of autonomous systems. Within the spectrum of monocular perception topics, one crucial and useful task for holistic 3D scene understanding is semantic scene completion (SSC), which jointly completes semantic information and geometric details from RGB input. However, progress in SSC, particularly in large-scale street views, is hindered by the scarcity of high-quality datasets. To address this issue, we introduce SSCBench, a comprehensive benchmark that integrates scenes from widely used automotive datasets (e.g., KITTI-360, nuScenes, and Waymo). SSCBench follows an established setup and format in the community, facilitating the easy exploration of SSC methods in various street views. We benchmark models using monocular, trinocular, and point cloud input to assess the performance gap resulting from sensor coverage and modality. Moreover, we have unified semantic labels across diverse datasets to simplify cross-domain generalization testing. We commit to including more datasets and SSC models to drive further advancements in this field.
研究の動機と目的
- 街路ビュー向けの大規模な屋外SSCデータセットの不足を解消する。
- 複数の自動車データセット間でセマンティックラベルを統一し、クロスドメイン評価を可能にする。
- 現実的な運転シナリオにおいて、モノキュラー、トリノキュラー、LiDAR ベースの SSC 手法を比較するベンチマークを提供する。
- センサモダリティ、入力密度、視野角がSSC性能へ与える影響を定量化する。
- クロスドメイン一般化の研究を促進し、将来のデータセットとモデル開発を指針とする。
提案手法
- KITTI-360、nuScenes、Waymo から SSCBench を統一された66.9kフレームのベンチマーク(train/val/test)に編纂する。
- マルチスイープの点群を統合し、3D バウンディングボックスによって動的オブジェクトを同期させることでグラウンドトゥルースを生成する。
- 統合された点群を0.2 mのグリッドにボクセル化し、51.2 x 51.2 x 6.4 mのボリューム内でボクセルラベルを多数決で割り当てる。
- レイ追跡によるオクルージョンと未検査領域を除外してラベルの信頼性を確保する。
- モノキュラー、トリノキュラー、LiDAR 入力設定の下で、カメラベース(MonoScene, VoxFormer, TPVFormer, OccFormer)と LiDAR ベース(SSCNet, LMSCNet)の SSC 手法をベンチマークする。
- 統一ラベルによるクロスドメイン評価を提供し、SSCBench のサブセット間(KITTI-360、nuScenes、Waymo)の転移を評価する。
実験結果
リサーチクエスチョン
- RQ1多様な街路ビュー・データセットにおいて、入力モダリティ(モノキュラー、トリノキュラー、LiDAR)と SSC 性能の関係はどのように変化するか。
- RQ2シーン密度と視野角がジオメトリとセマンティック完了性能に与える影響はどのようか。
- RQ3統一ラベリングの下で、あるドメインで訓練されたモデルは他のドメインにどれだけ一般化するか。
- RQ4屋外シーンにおけるカメラベースと LiDAR ベースの SSC 手法の相対的な強みと弱みは何か。
主な発見
- SSCBench は SemanticKITTI の約7.7倍の規模で、六つの都市と三つのデータセットにまたがる。
- LiDAR ベース手法が KITTI-360 と Waymo でカメラベース手法を上回る一方、スパースな LiDAR(nuScenes)ではカメラベース手法が LiDAR ベースを上回る可能性がある。
- 高密度 LiDAR 入力(Waymo)は LiDAR 手法の性能を高くする一方、低密度 LiDAR(nuScenes)はジオメトリ指標でカメラベース手法を有利にする。
- トリノキュラー入力はモノキュラーより性能を向上させるが、モノキュラー SSC は依然として難しく、メモリ効率の良い選択肢である。
- クロスドメイン評価はデータセット間の転移時に顕著な性能低下を示し、ドメインギャップと堅牢な一般化モデルの必要性を浮き彫りにする。
- 統一ラベルはクロスドメイン転送分析を可能にし、整合していてもドメイン固有のバイアスがクラス間の IoU と mIoU に影響を与えることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。