[論文レビュー] Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning
Scene-LLMは、エゴセントリックおよびシーンレベルの3D視覚情報をLLMバックボーンと融合させ、屋内シーンでの密集キャプション、3D-VQA、そして対話的計画を実現する3D視覚言語モデルであり、 extensive fine-tuningを伴わない強力なベンチマークを達成します。
This paper introduces Scene-LLM, a 3D-visual-language model that enhances embodied agents' abilities in interactive 3D indoor environments by integrating the reasoning strengths of Large Language Models (LLMs). Scene-LLM adopts a hybrid 3D visual feature representation, that incorporates dense spatial information and supports scene state updates. The model employs a projection layer to efficiently project these features in the pre-trained textual embedding space, enabling effective interpretation of 3D visual information. Unique to our approach is the integration of both scene-level and ego-centric 3D information. This combination is pivotal for interactive planning, where scene-level data supports global planning and ego-centric data is important for localization. Notably, we use ego-centric 3D frame features for feature alignment, an efficient technique that enhances the model's ability to align features of small objects within the scene. Our experiments with Scene-LLM demonstrate its strong capabilities in dense captioning, question answering, and interactive planning. We believe Scene-LLM advances the field of 3D visual understanding and reasoning, offering new possibilities for sophisticated agent interactions in indoor settings.
研究の動機と目的
- エージェルド生態系を強力な3D視覚推論で装備させることをLLMsを活用して動機づける。
- dense spatial informationを保持し、状態更新をサポートするハイブリッド3D視覚特徴表現を開発する。
- dense 3D視覚特徴を軽量な射影層を介して前学習済みLLM埋め込みと整列させる。
- Scene-LLMの3D-VQAベンチマークと対話的計画タスクでの優秀さを示す。
- 3D-視覚言語整合のためのスケーラブルなデータ生成パイプラインを提供する。
提案手法
- 3Dフレームとシーンからのdense spatial informationを符号化するハイブリッド3Dポイント-ボクセル表現を使用する。
- 軽量射影層を用いて3D特徴をLLM埋め込み空間にプロジェクトし、整列を行う。
- 2段階のトレーニング:ステージ1はデュアル座標系での3Dフレーム言語データを用いて射影層を事前学習させる;ステージ2はフレーム・シーン言語データで射影層とLLMの両方をファインチューニングする。
- 非対話生成または対話タスクのための2段階プロセスで推論を行い、エゴセントリックフレーム更新とシーン状態更新を含む。
- 整合と推論を支える大規模な3D-視覚言語データセットを生成する(≈190k frame-languageペア;≈500k scene-instructionペア)。
- エゴセントリックとシーン中心の理解のために2つの座標系(カメラとワールド)を活用し、計画と局在化を改善する。
実験結果
リサーチクエスチョン
- RQ1統合された3D視覚言語モデルは、対話的計画のためにエゴセントリック情報とシーンレベル情報を効果的に統合できるか?
- RQ2ボクセルダウンサンプリングを伴う密集3D表現はLLMとの効果的な整合を支え、シーン変化をまたいだ状態更新を可能にするか?
- RQ3Scene-LLMは3D-VQAベンチマークと対話的計画タスクで、従来の3D-VLMおよびLLMベースのプランナーと比較してどうであるか?
- RQ4トレーニング戦略とデータモダリティ(フレームデータ vs シーンデータ)が整合と下流の推論に与える影響は何か?
主な発見
- Scene-LLMは多くの指標でタスク特化型ファインチューニングなしでScanQAおよびSQA3Dで最先端の性能を達成。
- 最小限のステップでファインチューニングした場合、対話的計画のベンチマークで堅牢な結果を示し、高レベルの計画指標でベースラインを上回る。
- デュアル座標系の dense 3D表現とボクセルベースのダウンサンプリングは、状態更新とLLMとの整合を効果的にサポートする。
- エゴセントリック更新とシーンレベル更新の両方が堅牢な対話的計画には不可欠で、特に高レベル計画の正確性にはエゴセントリック更新が重要。
- フレームデータの事前学習は収束を加速し、シーンのみの事前学習と比べて概念的理解を豊かにする。
- 軽量な射影層で3D特徴とLLMを橋渡しでき、重い視覚特徴抽出器を回避できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。