[論文レビュー] OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy Prediction
OccFormerはカメラ由来の3Dボクセル特徴を効率的に符号化するデュアルパス・トランスフォーマーを導入し、3D semantic occupancy予測を実現するとともに、Sparse性とクラス不均衡に対応するため preserve-pooling と class-guided sampling を取り入れたMask2Former風デコーディングを適用して、SemanticKITTI SSCと nuScenes LiDARセグメンテーションにおいて最先端の結果を達成する。
The vision-based perception for autonomous driving has undergone a transformation from the bird-eye-view (BEV) representations to the 3D semantic occupancy. Compared with the BEV planes, the 3D semantic occupancy further provides structural information along the vertical direction. This paper presents OccFormer, a dual-path transformer network to effectively process the 3D volume for semantic occupancy prediction. OccFormer achieves a long-range, dynamic, and efficient encoding of the camera-generated 3D voxel features. It is obtained by decomposing the heavy 3D processing into the local and global transformer pathways along the horizontal plane. For the occupancy decoder, we adapt the vanilla Mask2Former for 3D semantic occupancy by proposing preserve-pooling and class-guided sampling, which notably mitigate the sparsity and class imbalance. Experimental results demonstrate that OccFormer significantly outperforms existing methods for semantic scene completion on SemanticKITTI dataset and for LiDAR semantic segmentation on nuScenes dataset. Code is available at \url{https://github.com/zhangyp15/OccFormer}.
研究の動機と目的
- BEVを超えて、細粒度な3D構造とセマンティクスを再構成することで、ビジョンベースの3D semantic occupancy予測を先行させる。
- 局所ディテールとグローバルシーンレイアウトの両方を捉えるデュアルパス・トランスフォーマーを用いて3Dボクセル特徴の効率的なエンコーダを開発する。
- sparsityとクラス不均衡を緩和する技術を組み込んだ3D占有デコーダを、マスク分類デコーダとして適用する。
- RGB入力を用いてSemanticKITTI SSCとnuScenes LiDARセグメンテーションで最先端の性能を示し、競争力のある結果を示す。
提案手法
- 局所BEVスライスウィンドウ付きアテンション経路とコンテキスト用のASPPを用いたグローバルBEV経路を持つデュアルパス・トランスフォーマーエンコーダ、シグモイド加重のスキップ接続で融合。
- 外積と深度分布による3Dボクセル体積への画像特徴の変換(F3d形成のための深度分布との外積とボクセルプーリングを用いる)。
- Mask2Formerに触発されたトランスフォーマー型 occupancy デコーダ(マルチスケール3D deformable attentionを用いたピクセルデコーダと、マスク埋め込みとクラスロジット用のトランスフォーマデコーダを含む)。
- Preserve-pooling: アテンションマスクのダウンサンプリング時にトライリニアダウンサンプリングを最大プーリングに置換し、疎な3D occupancy構造をより良く保持。
- Class-guided sampling: クラス頻度を計算し、サンプリングウェイトを導出して、希少クラスのマッチングと監視を改善するためのボクセル位置の偏りサンプリングを実施。
実験結果
リサーチクエスチョン
- RQ1カメラ入力からの3D semantic occupancyを、局所的な細部とグローバルなシーン構造の両方を同時に捉えるデュアルパス・トランスフォーマーは実現できるか。
- RQ2Preserve-poolingとclass-guided samplingを適用したMask2Formerの適応は、Sparse性とクラス不均衡の下で3D occupancy予測を改善するか。
- RQ3提案手法OccFormerはモノクラス視点とビジョンベースのベースラインをSemantic scene completionで上回り、LiDARセグメンテーション類似の占有予測で競争力を示せるか。
- RQ4局所パスとグローバルパスが従来の3D畳み込みと比べて全体的な性能と効率性にどのように寄与するか。
主な発見
| Method | Input Modality | SC IoU | SSC mIoU | road | sidewalk | parking | other-ground | building | car | truck | bicycle | motorcycle | other-vehicle | vegetation | trunk | terrain | person | bicyclist | motorcyclist | fence | pole | traf-sign |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| OccFormer (ours) | Camera | 34.53 | 12.32 | 55.90 | 30.30 | 31.50 | 6.50 | 15.70 | 21.60 | 1.20 | 1.50 | 1.70 | 3.20 | 16.80 | 3.90 | 21.30 | 2.20 | 1.10 | 0.20 | 11.90 | 3.80 | 3.70 |
- OccFormerはSemanticKITTI SSCでモノクロ基準を上回り、MonoSceneを上回る改善を報告、テストリーダーボード上で堅実な順位を示す。
- SemanticKITTI validationでは、OccFormerは複数のモノクロ手法より高いSSC mIoUを達成し、シーン完結 IoUも改善を示す。
- nuScenesでは、カメラのみのモデルで競争力のあるLiDARセグメント性能を達成し、TPVFormerを上回り、LiDARベース手法に近づく。
- アブレーションにより、局所パスとグローバルパスの双方が利得に寄与し、デュアルパスエンコーダは素の3D畳み込みよりも効率的であることが示され、ピクセルデコーダにはマルチスケール3D deformable attentionがFPN-3Dより優れている。
- Preserve-poolingとclass-guided samplingはトランスフォーマーデコーダに意味ある改善をもたらし、アブレーションでmIoUがそれぞれ約0.5点および1点以上改善。
- モデルは8x RTX 3090級のトレーニング環境で、SemanticKITTIは30エポック、nuScenesは24エポック、マスク分類と深度監視を組み合わせた Lossを慎重に設計して使用している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。