[論文レビュー] VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion
VoxFormerは、まず画像深度からスパースな3Dボクセルクエリを生成し、次にマスクドオートエンコーダ風アーキテクチャでそれらを密化する2段階のTransformerフレームワークを導入し、SemanticKITTIで最先端のカメラベース3D意味論的シーン完成を達成する。
Humans can easily imagine the complete 3D geometry of occluded objects and scenes. This appealing ability is vital for recognition and understanding. To enable such capability in AI systems, we propose VoxFormer, a Transformer-based semantic scene completion framework that can output complete 3D volumetric semantics from only 2D images. Our framework adopts a two-stage design where we start from a sparse set of visible and occupied voxel queries from depth estimation, followed by a densification stage that generates dense 3D voxels from the sparse ones. A key idea of this design is that the visual features on 2D images correspond only to the visible scene structures rather than the occluded or empty spaces. Therefore, starting with the featurization and prediction of the visible structures is more reliable. Once we obtain the set of sparse queries, we apply a masked autoencoder design to propagate the information to all the voxels by self-attention. Experiments on SemanticKITTI show that VoxFormer outperforms the state of the art with a relative improvement of 20.0% in geometry and 18.1% in semantics and reduces GPU memory during training to less than 16GB. Our code is available on https://github.com/NVlabs/VoxFormer.
研究の動機と目的
- monocular/stereo画像からの completeな3Dシーン理解を動機づけ、車両の前方の密度の高い3Dセマンティクスを予測する。
- カメラベースSSCにおける2D-to-3D特徴投影の非効率性とあいまいさに対処するため、スパースな3Dクエリ表現を活用する。
- 可視構造を先に再構築し、 occluded領域の hallucination を後続させる2段階のアーキテクチャを提案する。
- prior camera-based SSC手法より訓練メモリを削減し、幾何・意味の補完品質を向上させる。
提案手法
- Stage-1: 深度補正占有を用いて predefined Q グリッドからスパースな3Dボクセルクエリ集合を選択するクエリ提案(クラス非依存)
- Stage-2: MAE風のスパース→デンストランスフォーマーで、提案ボクセルの特徴を2D画像特徴とのクロスアテンションでまず強化し、続いて変形可能自己注意で全ボクセルを補完し、密なボクセル別意味へアップサンプリングする。
実験結果
リサーチクエスチョン
- RQ12段階のスパース→デンストランスフォーマーフレームワークは、SemanticKITTIでの最先端手法を超えるカメラベースSSCを実現できるか。
- RQ2深度ベースのクエリ提案は occupied領域に注意を集中させることで計算を削減し、精度を向上させるか。
- RQ3時系列情報(複数フレーム)はVoxFormerの幾何補完と意味的セグメンテーションにどのような影響を与えるか。
- RQ4VoxFormerは ego-vehicle先のさまざまな距離でLiDARベースのSSC手法と比較してどうか。
主な発見
| Method | Modality | IoU_12.8m (%) | IoU_25.6m (%) | IoU_51.2m (%) | mIoU_12.8m (%) | mIoU_25.6m (%) | mIoU_51.2m (%) |
|---|---|---|---|---|---|---|---|
| MonoScene | Camera | 38.42 | 38.55 | 36.80 | 12.25 | 12.22 | 11.30 |
| VoxFormer-T (Ours) | Camera | 65.38 | 57.69 | 44.15 | 21.55 | 18.42 | 13.35 |
| VoxFormer-S (Ours) | Camera | 65.35 | 57.54 | 44.02 | 17.66 | 16.48 | 12.35 |
- VoxFormer-TとVoxFormer-SはSemanticKITTIでの最先端のカメラベース SSC結果を提供し、VoxFormer-Tは12.8mでIoU 65.38%、mIoU 21.55%、51.2mでIoU 44.15、mIoU 13.35を達成。
- VoxFormerは幾何補完でMonoSceneを大きく上回り(12.8mでIoU 36.80%対44.15%の差、VoxFormer-T)、意味的精度も向上(mIoU 11.30%対13.35%)、短距離の安全Critical領域で大きな利得を提供する。
- 時系列情報(VoxFormer-T)は全域、51.2m、25.6m、12.8m領域でのmIoUを大幅に向上させる(例: +8.10%〜 +22.03%)。
- 深度ベースのクエリ提案を用いて空白スペースのアテンションを削減し、訓練メモリを約16GBで抑え、約6000万パラメータ程度で、近接領域のいくつかのLiDARベース手法を上回る。
- ステレオ深度を用いると、VoxFormer-SおよびVoxFormer-Tは monocular depth よりさらなる改善を示し、3Dシーン補完における正確な深度の恩恵が強調される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。