[論文レビュー] Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving
Occ3D は2つの大規模3D占有予測ベンチマーク(Occ3D-WaymoとOcc3D-nuScenes)を導入し、密なラベル生成パイプラインと新しいCTF-Occネットワークはベンチマークで最先端の結果を達成します。
Robotic perception requires the modeling of both 3D geometry and semantics. Existing methods typically focus on estimating 3D bounding boxes, neglecting finer geometric details and struggling to handle general, out-of-vocabulary objects. 3D occupancy prediction, which estimates the detailed occupancy states and semantics of a scene, is an emerging task to overcome these limitations. To support 3D occupancy prediction, we develop a label generation pipeline that produces dense, visibility-aware labels for any given scene. This pipeline comprises three stages: voxel densification, occlusion reasoning, and image-guided voxel refinement. We establish two benchmarks, derived from the Waymo Open Dataset and the nuScenes Dataset, namely Occ3D-Waymo and Occ3D-nuScenes benchmarks. Furthermore, we provide an extensive analysis of the proposed dataset with various baseline models. Lastly, we propose a new model, dubbed Coarse-to-Fine Occupancy (CTF-Occ) network, which demonstrates superior performance on the Occ3D benchmarks. The code, data, and benchmarks are released at https://tsinghua-mars-lab.github.io/Occ3D/.
研究の動機と目的
- 従来の3D検出およびSSCに対する詳細な代替として3D占有予測を動機づけ、よりリッチなジオメトリとオープンワールドセマンティクスを実現する。
- ボクセルの密化—遮蔽推論—画像誘導リファインメントパイプラインを通じて高品質で密な占有ラベルを提供する。
- Waymo Open DatasetおよびnuScenesに由来するOcc3D-WaymoとOcc3D-nuScenesベンチマークを確立し、総合的な評価を行う。
- Occ3D上のベースライン手法をベンチマークし分析して、3D占有予測の研究を活性化する。
- Coarse-to-Fine Occupancy (CTF-Occ) ネットワークを提案・検証し、Occ3Dで優れた性能を達成する。
提案手法
- 三段階のラベル生成パイプラインを開発する:ボクセル密化、遮蔽推論、画像誘導ボクセルリファインメント。
- 密で可視性を考慮したボクセルラベルを用いた、Occ3D-WaymoとOcc3D-nuScenesという二つのベンチマークをWaymo Open DatasetおよびnuScenes上に作成する。
- CTF-Occを提案する。粗中細のボクセルエンコーダーにおけるクロスアテンションを介して2D画像特徴を3D空間に集約する変換器ベースのネットワーク。
- クロスアテンション中に非空間または不確かなボクセルに計算を集中させるため、増分トークン選択を組み込む。
- 空間的クロスアテンションを備えたピラミッド状ボクセルエンコーダーと、ハイレゾリューションな占有予測のための暗黙的占有デコーダを使用する。
- OHEM lossと補助的な二値ボクセルマスクを用いて、多段階のボクセル占有を教師付けする。
実験結果
リサーチクエスチョン
- RQ1既存のLiDARと画像データから、3D占有予測を可能にする密で可視性を考慮したボクセルラベルをどのように生成できるか?
- RQ2自動運転の大規模な周囲ビュー・データセットにおける既存の3D占有法の性能はどの程度か?
- RQ3粗から細へのボクセルエンコーディング戦略は3D占有予測の精度と効率を改善できるか?
- RQ4クロスアテンションと増分トークン選択を備えた変換器ベースのアーキテクチャはOcc3Dで優れた3D占有予測をもたらすか?
- RQ5オープンワールド知覚のための占有予測ベンチマークにおける一般オブジェクト(GO)クラスの包含が影響するのは何か?
主な発見
- Occ3Dは密で可視性を考慮した占有ラベルを備えた2つの大規模ベンチマーク、Occ3D-WaymoとOcc3D-nuScenesを導入します。
- CTF-OccはOcc3D-nuScenesで強力なベースライン(例:BEVFormer)を約1.65 mIoU上回ります。
- Occ3D-Waymoでは、CTF-Occは従来手法より約1.97の mIoUを向上させ、特定のオブジェクトでより大きな改善を示します(例:交通コーン +2.88 IoU、車両 +10.23 IoU)。
- ラベル生成パイプライン(ボクセル密化、遮蔽推論、画像誘導リファインメント)は、3D-2Dの整合性を改善し、より高品質な占有アノテーションを生み出します。
- 増分トークン選択とクロスアテンションを備えた粗から細へのボクセルエンコーダは、混在した走行シーンで効率的かつ正確な3D占有予測を実現します。
- Occ3DデータセットにはGO(General Object)クラスが含まれており、語彙外オブジェクトへの対応を通じてオープンワールド知覚の課題に対処します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。