Skip to main content
QUICK REVIEW

[論文レビュー] DepthSSC: Monocular 3D Semantic Scene Completion via Depth-Spatial Alignment and Voxel Adaptation

Jiawei Yao, Jusheng Zhang|arXiv (Cornell University)|Nov 28, 2023
Advanced Vision and Imaging被引用数 10
ひとこと要約

DepthSSCは空間的に変換されたグラフフュージョンと幾何学的に意識したボクセル化を導入し、空間情報と深度情報を揃え、単眼の3Dセマンティックシーン完成のボクセル解像度を適応させ、SemanticKITTIで最先端の結果を達成する。

ABSTRACT

The task of 3D semantic scene completion using monocular cameras is gaining significant attention in the field of autonomous driving. This task aims to predict the occupancy status and semantic labels of each voxel in a 3D scene from partial image inputs. Despite numerous existing methods, many face challenges such as inaccurately predicting object shapes and misclassifying object boundaries. To address these issues, we propose DepthSSC, an advanced method for semantic scene completion using only monocular cameras. DepthSSC integrates the Spatial Transformation Graph Fusion (ST-GF) module with Geometric-Aware Voxelization (GAV), enabling dynamic adjustment of voxel resolution to accommodate the geometric complexity of 3D space. This ensures precise alignment between spatial and depth information, effectively mitigating issues such as object boundary distortion and incorrect depth perception found in previous methods. Evaluations on the SemanticKITTI and SSCBench-KITTI-360 dataset demonstrate that DepthSSC not only captures intricate 3D structural details effectively but also achieves state-of-the-art performance.

研究の動機と目的

  • 単眼3Dセマンティックシーン完成(SSC)における空間と深度のずれを解消する。
  • 深度マップをボクセルベースのシーン表現と整列させる仕組みを導入する。
  • 幾何学的な複雑さに応じてボクセル解像度を動的に適応させ、細部と効率を両立する。
  • SemanticKITTIおよび関連ベンチマークで定量的性能の改善を実証する。

提案手法

  • ボクセル特徴をグラフに変換・融合する Spatially-Transformed Graph Fusion(ST-GF)を提案し、正確なボクセル定位のためのSTNとボクセルへ特徴を伝播するGCNを用いる。
  • 幾何学的な複雑さに基づいてボクセル解像度を割り当てるGeometrically-aware Voxelization(GAV)を開発し、複雑な領域で高解像度を、その他の領域で低解像度を実現する。
  • 変形可能自己注意と変形可能クロス注意を統合して2D特徴を3Dボクセル空間に投影し、3Dでボクセル特徴を精練する。
  • 占有確率の二値クロスエントロピー、空間連続性損失、意味的ボクセルグリッド損失、Hausdorff距離に基づく幾何保存損失を含む多段階の学習目的を組み込む。
  • VoxFormerを基盤とするベースラインを活用し、ST-GFとGAVを組み合わせてDepthSSCアーキテクチャを構築する。

実験結果

リサーチクエスチョン

  • RQ1ST-GFは単眼SSCにおいて深度由来情報とボクセルベースのシーン表現の整合性を改善できるか?
  • RQ2Geometrically-aware Voxelizationは幾何学的に複雑な領域で再構成の細部を改善し、計算コストは過度にならないか?
  • RQ3SemanticKITTIおよびSSCBench-KITTI-360におけるRGBベースの単眼SSC手法と比較してDepthSSCはどの程度性能を発揮するか?
  • RQ4アブレーション研究で示されるST-GFとGAVの全体性能への寄与はどの程度か?

主な発見

  • DepthSSCはSemanticKITTIテストセットでIoU 44.58%、mIoU 13.11%を達成(RGB単眼入力)。
  • SemanticKITTIの検証セットでIoU 45.84%、mIoU 13.28%を達成。
  • アブレーションによりST-GFとGAVの両方がVoxFormerベースラインに対して一貫した、加算的な利得をもたらすことが示された。
  • ST-GFは深度マップとボクセルクエリ間の空間的整合を改善し、GAVは幾何学的に複雑な領域でより詳細を捉える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。