[論文レビュー] POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images
POP-3D は 2D 画像から tri-modal self-supervised 学習を用いてオープンボキャブラリの3D ボクセル占有を予測し、3D アノテーションなしでゼロショットの3D セマンティックセグメンテーションと言語グラウンディングを可能にする。
We describe an approach to predict open-vocabulary 3D semantic voxel occupancy map from input 2D images with the objective of enabling 3D grounding, segmentation and retrieval of free-form language queries. This is a challenging problem because of the 2D-3D ambiguity and the open-vocabulary nature of the target tasks, where obtaining annotated training data in 3D is difficult. The contributions of this work are three-fold. First, we design a new model architecture for open-vocabulary 3D semantic occupancy prediction. The architecture consists of a 2D-3D encoder together with occupancy prediction and 3D-language heads. The output is a dense voxel map of 3D grounded language embeddings enabling a range of open-vocabulary tasks. Second, we develop a tri-modal self-supervised learning algorithm that leverages three modalities: (i) images, (ii) language and (iii) LiDAR point clouds, and enables training the proposed architecture using a strong pre-trained vision-language model without the need for any 3D manual language annotations. Finally, we demonstrate quantitatively the strengths of the proposed model on several open-vocabulary tasks: Zero-shot 3D semantic segmentation using existing datasets; 3D grounding and retrieval of free-form language queries, using a small dataset that we propose as an extension of nuScenes. You can find the project page here https://vobecant.github.io/POP3D.
研究の動機と目的
- 2Dから3Dへの曖昧さと、画像からのオープンボキャブラリ3D占有予測に対処する。
- LiDARと言語モデルの特徴を活用することにより、手動の3Dセマンティック注釈への依存を排除する。
- オープンボキャブラリタスクのための言語整合埋め込みを持つ密な3Dボクセルマップを生成する。
- 推論時にLiDARなしでのオープンボキャブラリ3Dセグメンテーションと言語駆動のグラウンディングをテスト時に可能にする。
提案手法
- 周囲視画像から密なボクセル特徴グリッドを生成する2D-to-3Dエンコーダを備えたアーキテクチャ。
- 2つの並行ヘッド:(i) ボクセルごとの occupied/empty を出力する占有ヘッド、(ii) ボクセルごとに視覚-言語埋め込みを出力する3D-言語ヘッド。
- 画像、 LiDAR、および事前学習済みの言語-画像モデルを用いた三モーダル自己教師付き学習で、3D-言語特徴のターゲットを生成。
- Occupancy損失 L_occ はクロスエントロピーと Lovász-softmax を組み合わせて、LiDAR由来のターゲットを用いてクラス非依存の占有を監視する。
- Image-language蒸留損失 L_ft は、カメラ投影を介して2D画像からサンプリングされた言語対応特徴と3D-言語ヘッドの出力を整合させる。
- 最終的な学習目的は L = L_occ + lambda * L_ft、占有と語学監視のバランスを取る。
- テスト時には、テキストプロンプトと3D-言語埋め込みとの比較を用いて、ゼロショットの3Dセマンティックセグメンテーションおよび言語駆動のグラウンディングを実施。
実験結果
リサーチクエスチョン
- RQ1テスト時にカメラのみで、ラベルなしのImage-LiDARデータからオープンボキャブラリの3Dセマンティック占有を学習できるか。
- RQ2明示的な3D言語アノテーションなしで、3Dボクセル特徴を言語と整合させるにはどうすればよいか。
- RQ3監督付きおよび他のオープンボキャブラリベースラインと比較して、ゼロショットの3Dセマンティックセグメンテーションおよび言語グラウンディング付きの3D検索における POP-3D の性能はどうか?
主な発見
- POP-3D は LiDAR ベースの3D特徴 IoU で MaskCLIP+ を上回り、3D占有タスクで完全に教師ありの TPVFormer の性能のおよそ84%に達する。
- 訓練時に3Dセマンティック注釈がなくても、nuScenesでゼロショット設定において完全教師ありの16+1クラス意味占有のmIoUのおよそ78%を達成。
- オープンボキャブラリ検索では、POP-3D は 18.4 mAP を達成し、MaskCLIP+(14.9 mAP)を上回る。
- クラス非依存占有評価で、POP-3D は IoU で完全監督の TPVFormer を上回り、占有空間予測の強さを際立たせる。
- このアプローチは言語駆動の3Dグラウンディングを実証し、テキストクエリ(例として 'building door' や 'tire' のようなテキストクエリ)を3D空間で局在化する定性的結果を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。